<html>
    <head>
      <base href="https://bugs.freedesktop.org/" />
    </head>
    <body>
      <p>
        <div>
            <b><a class="bz_bug_link 
          bz_status_NEW "
   title="NEW --- - [PATCH] try to detect line breaks in the PDF and insert them in raw mode for pdftotext"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=62266#c11">Comment # 11</a>
              on <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW --- - [PATCH] try to detect line breaks in the PDF and insert them in raw mode for pdftotext"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=62266">bug 62266</a>
              from <span class="vcard"><a class="email" href="mailto:jamslam@gmail.com" title="Andrew Gallant <jamslam@gmail.com>"> <span class="fn">Andrew Gallant</span></a>
</span></b>
        <pre><span class="quote">> It may not, but i don't see the need for your patch (you haven't made a case for it)</span >

My patch is useful when one wants to capture groupings indicated by a
particular amount of vertical white space in raw mode from the PDF. Raw mode is
*already* capturing some kinds of vertical white space.

I've said this a couple of times now, but you don't seem to recognize it as me
having made a case. Perhaps you could tell me what you would need to be
convinced so that I can better make my case?

<span class="quote">> In my opinion you are trying to use raworder for something that raworder is not supposed to do</span >

I disagree. If that were so, then I'd be making assumptions about the text in
raw order that the code hasn't already made. But I'm not. It's a tweak on
existing logic that is already assuming some sort of reading order by looking
at letter spacing and intra-line spacing and using that information to affect
the output of raw mode. I propose to also look at inter-line spacing.

<span class="quote">> why are you using raw order instead of the real physical order?</span >

Because I want to attempt to extract a linear text stream from a PDF in reading
order. Unless I am mistaken, raw mode seems best suited to do that. The new
option in the patch makes that raw text easier to consume in some cases (just
like adding new lines based on the intra-line spacing also makes it easier to
consume).</pre>
        </div>
      </p>
      <hr>
      <span>You are receiving this mail because:</span>
      
      <ul>
          <li>You are the assignee for the bug.</li>
      </ul>
    </body>
</html>