<u>Finding a way to sort the Pdf Text Blocks,    find the<br>
      number of columns         in a page.<br><br><br></u>@Albert qt methods don&#39;t expose the selections, but if we can make the block sortings in the backend poppler  code it self, so that we can expose to glib or qt whenever we need. How about it?<br>
<u><br></u>    <br><br><div class="gmail_quote">On Wed, Jul 28, 2010 at 9:00 AM,  <span dir="ltr">&lt;<a href="mailto:poppler-request@lists.freedesktop.org">poppler-request@lists.freedesktop.org</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Send poppler mailing list submissions to<br>
        <a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="http://lists.freedesktop.org/mailman/listinfo/poppler" target="_blank">http://lists.freedesktop.org/mailman/listinfo/poppler</a><br>
or, via email, send a message with subject or body &#39;help&#39; to<br>
        <a href="mailto:poppler-request@lists.freedesktop.org">poppler-request@lists.freedesktop.org</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:poppler-owner@lists.freedesktop.org">poppler-owner@lists.freedesktop.org</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than &quot;Re: Contents of poppler digest...&quot;<br>
<br>
<br>
Today&#39;s Topics:<br>
<br>
   1. Re: Finding a way to sort the Pdf Text Blocks,    find the<br>
      number of columns         in a page. (Albert Astals Cid)<br>
   2. Re: Vertical or horizontal writing? (Albert Astals Cid)<br>
   3. FYI: embedded fonts for vertical text in PDF by MS Office<br>
      2007/2010 (suzuki toshiya)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Tue, 27 Jul 2010 20:36:56 +0100<br>
From: Albert Astals Cid &lt;<a href="mailto:aacid@kde.org">aacid@kde.org</a>&gt;<br>
Subject: Re: [poppler] Finding a way to sort the Pdf Text Blocks,       find<br>
        the number of columns   in a page.<br>
To: <a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a><br>
Message-ID: &lt;<a href="mailto:201007272036.57262.aacid@kde.org">201007272036.57262.aacid@kde.org</a>&gt;<br>
Content-Type: Text/Plain;  charset=&quot;us-ascii&quot;<br>
<br>
A Dimarts, 27 de juliol de 2010, srinivas adicherla va escriure:<br>
&gt; Hi all,<br>
&gt;<br>
&gt;         I used the poppler_page_get_selection_<br>
&gt; region() to find the line rectangles of each and every line in a page.<br>
&gt; From that I find the blocks, then I find the columns of the page. From the<br>
&gt; number of columns of the page, Iam able to sort the blocks. So that the<br>
&gt; selection is very good.<br>
&gt;<br>
&gt; Right now in poppler the selection is bit a problem. After doing all these<br>
&gt; its almost look like Adobe Reader&#39;s Selection.<br>
&gt;<br>
&gt; Please give me suggestions on improving this.<br>
<br>
Carlos? The qt frontends don&#39;t expose the selection method so i think it&#39;s up<br>
to you for the moment.<br>
<br>
&gt;<br>
&gt; I attached two files with this mail.<br>
&gt;<br>
&gt; getcol.c is able to sort the blocks in single/multicolumn pdfs.<br>
&gt; getcolumn.c is based on the above sorting used to do the selection.<br>
&gt;<br>
&gt;<br>
&gt; *I sent patch about getting the PDF ID from the document before. Albert<br>
&gt; said it was ok. But he asked carlos ?<br>
&gt;<br>
&gt; Please give me the status about it. *<br>
<br>
Carlos?<br>
<br>
Albert<br>
<br>
&gt;<br>
&gt;<br>
&gt; Thanks<br>
<br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Tue, 27 Jul 2010 20:41:52 +0100<br>
From: Albert Astals Cid &lt;<a href="mailto:aacid@kde.org">aacid@kde.org</a>&gt;<br>
Subject: Re: [poppler] Vertical or horizontal writing?<br>
To: <a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a><br>
Message-ID: &lt;<a href="mailto:201007272041.55309.aacid@kde.org">201007272041.55309.aacid@kde.org</a>&gt;<br>
Content-Type: Text/Plain;  charset=&quot;us-ascii&quot;<br>
<br>
A Dimarts, 27 de juliol de 2010, <a href="mailto:mpsuzuki@hiroshima-u.ac.jp">mpsuzuki@hiroshima-u.ac.jp</a> va escriure:<br>
&gt; Dear Albert,<br>
&gt;<br>
&gt; On Tue, 27 Jul 2010 10:32:45 +0900<br>
&gt;<br>
&gt; <a href="mailto:mpsuzuki@hiroshima-u.ac.jp">mpsuzuki@hiroshima-u.ac.jp</a> wrote:<br>
&gt; &gt;&gt;But i&#39;d prefer you to use an enum instead of an int, at least on the<br>
&gt; &gt;&gt;poppler- qt4 level, can you do the appropiate changes?<br>
&gt; &gt;<br>
&gt; &gt;OK, I will improve, of course. But please let me ask<br>
&gt; &gt;your comment about the appropriate design.<br>
&gt; &gt;<br>
&gt; &gt;When CMap-&gt;parse() parses CMap resource, it can load any<br>
&gt; &gt;integer value to CMap-&gt;wMode. And, The type of the return<br>
&gt; &gt;value from CMap-&gt;getWMode() (and GfxFont-&gt;getWMode()) is<br>
&gt; &gt;int.<br>
&gt; &gt;<br>
&gt; &gt;In FontInfo class, should I restrict the writing mode<br>
&gt; &gt;enumeration value to 2 correct values: 0/horizontal or<br>
&gt; &gt;1/vertical?<br>
&gt; &gt;<br>
&gt; &gt;Or, it is better to have 3 values: 0/horizontal, 1/vertical<br>
&gt; &gt;and -1 (or 2, or anything else) for broken writing mode<br>
&gt; &gt;info?<br>
<br>
Well, reading the specification it says that 0 is the default so i understand<br>
that if there is a value different than 0 or 1, 0 should be used.<br>
<br>
Albert<br>
<br>
&gt;<br>
&gt; Just I&#39;ve drafted a patch using enum type in Poppler::FontInfo::wMode<br>
&gt; and its copy in Qt4/GLib/cpp binding. Please find attached<br>
&gt; patch.<br>
&gt;<br>
&gt; --<br>
&gt;<br>
&gt; But, Cobra had found the font-level writing mode detection<br>
&gt; is insufficient even we restrict the scope to the PDF<br>
&gt; generated by popular applications. I attached a PDF<br>
&gt; including vertical text which is generated by MS Office<br>
&gt; 2010 PDF generator addin. The embedded font is connected<br>
&gt; with Identity-H, so my patch recognizes the font is for<br>
&gt; horizontal. I try to detect the expected result by using<br>
&gt; text level information. So, please don&#39;t hurry to evaluate<br>
&gt; this patch. I mush work more.<br>
&gt;<br>
&gt;<br>
&gt; Regards,<br>
&gt; mpsuzuki<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Wed, 28 Jul 2010 12:29:29 +0900<br>
From: suzuki toshiya &lt;<a href="mailto:mpsuzuki@hiroshima-u.ac.jp">mpsuzuki@hiroshima-u.ac.jp</a>&gt;<br>
Subject: [poppler] FYI: embedded fonts for vertical text in PDF by MS<br>
        Office  2007/2010<br>
To: <a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a><br>
Message-ID: &lt;<a href="mailto:4C4FA419.5000502@hiroshima-u.ac.jp">4C4FA419.5000502@hiroshima-u.ac.jp</a>&gt;<br>
Content-Type: text/plain; charset=&quot;iso-2022-jp&quot;<br>
<br>
Hi,<br>
<br>
When I check the PDFs generated by MS Office 2007 &amp; 2010<br>
addin, I found a difference in font embedding feature of<br>
them.<br>
<br>
* MS Office 2007<br>
The embedded font is named with prefix &quot;@&quot;. If I use<br>
MS Mincho, the font name is &quot;@MS Mincho&quot;. Such @-prefixed<br>
names are legacy style. If the source document uses<br>
both of horizontal and vertical text, non-prefixed and<br>
@-prefixed font objects are embedded to the PDF.<br>
<br>
* MS Office 2010.<br>
The embedded font is always non-prefixed. If the source<br>
document uses both of horizontal and vertical text,<br>
single non-prefixed font object covering the glyphs in both<br>
texts is embeded to the PDF.<br>
<br>
For concrete examples, please find attached PDFs.<br>
I was thinking @-prefixed font names are only used by<br>
legacy application when Win32 GUI framework didn&#39;t support<br>
vertical text edit. Seeing such names in the applications<br>
in 21st century was interesting experience for me.<br>
<br>
Regards,<br>
mpsuzuki<br>
<br>
<br>
<br>
-------------- next part --------------<br>
A non-text attachment was scrubbed...<br>
Name: msword2010-vert4.pdf<br>
Type: application/pdf<br>
Size: 38863 bytes<br>
Desc: not available<br>
URL: &lt;<a href="http://lists.freedesktop.org/archives/poppler/attachments/20100728/d13e9f5f/attachment.pdf" target="_blank">http://lists.freedesktop.org/archives/poppler/attachments/20100728/d13e9f5f/attachment.pdf</a>&gt;<br>

-------------- next part --------------<br>
A non-text attachment was scrubbed...<br>
Name: msword2007-vert.pdf<br>
Type: application/pdf<br>
Size: 50509 bytes<br>
Desc: not available<br>
URL: &lt;<a href="http://lists.freedesktop.org/archives/poppler/attachments/20100728/d13e9f5f/attachment-0001.pdf" target="_blank">http://lists.freedesktop.org/archives/poppler/attachments/20100728/d13e9f5f/attachment-0001.pdf</a>&gt;<br>

<br>
------------------------------<br>
<br>
_______________________________________________<br>
poppler mailing list<br>
<a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a><br>
<a href="http://lists.freedesktop.org/mailman/listinfo/poppler" target="_blank">http://lists.freedesktop.org/mailman/listinfo/poppler</a><br>
<br>
<br>
End of poppler Digest, Vol 65, Issue 48<br>
***************************************<br>
</blockquote></div><br>