<html>
    <head>
      <base href="https://bugs.freedesktop.org/">
    </head>
    <body>
      <p>
        <div>
            <b><a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - libpoppler cannot recreate pdftotext output, because physical_layout is not handled correctly"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=103798#c8">Comment # 8</a>
              on <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - libpoppler cannot recreate pdftotext output, because physical_layout is not handled correctly"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=103798">bug 103798</a>
              from <span class="vcard"><a class="email" href="mailto:dummydummy@gmx.fr" title="dummydummy@gmx.fr">dummydummy@gmx.fr</a>
</span></b>
        <pre>
When a TextOutputDev is created with a NULL first argument for output filename,
then a call to doc->displayPage(with such a TextOutputDev as first argument)
will not generate any output. Instead TextOutputDev->getText () will attempt to
assemble the fragments resulting from parsing the top level PDF object during
doc->displayPage(...) approximately matching the correct physical layout.

This is what happens in libpoppler, but the results differ from those produced
by pdftotext.

pdftotext creates a TextOutputDev with a (non-NULL) first argument for the
output filename. In this case, a call to doc->displayPage(with such a
TextOutputDev as first argument) will generate output to the filename (possibly
via Gfx->display () ?).

The poppler code thus appears to have two routines which are not quite
duplicates of one another for the same purpose of producing the text disposed
according to the physical layout in a string variable!? 

Such a (historical?) architecture is just a recipe for problems.

Is someone attempting to fix this? (This could be a major job)</pre>
        </div>
      </p>


      <hr>
      <span>You are receiving this mail because:</span>

      <ul>
          <li>You are the assignee for the bug.</li>
      </ul>
    </body>
</html>