<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; "><div>Leonard, I don't understand. &nbsp;You say Alec is &quot;missing HUGE PIECES of functionality found in the majority of real-world documents&quot;, but Albert says he has 1200 documents and none of them has markings. &nbsp;So, which is it, or <i>what</i> is it that Alec's missing?</div><div><br></div><div>I've got access to more than 10k PDFs, published in the past year or two, which I'd be happy to check, if you can tell me how. &nbsp;I'd be curious to know how many of them are taking advantage of these newer PDF features, and I'd LOVE it if they all were. &nbsp;Sadly, my guess is that it's close to zero. :-(</div><div><br></div><div>--josh</div><div><br></div><span id="OLK_SRC_BODY_SECTION"><div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt"><span style="font-weight:bold">From: </span> Leonard Rosenthol &lt;<a href="mailto:lrosenth@adobe.com">lrosenth@adobe.com</a>&gt;<br><span style="font-weight:bold">Date: </span> Thu, 10 Nov 2011 14:15:28 -0800<br><span style="font-weight:bold">To: </span> Alec Taylor &lt;<a href="mailto:alec.taylor6@gmail.com">alec.taylor6@gmail.com</a>&gt;<br><span style="font-weight:bold">Cc: </span> Cid &lt;<a href="mailto:aacid@kde.org">aacid@kde.org</a>&gt;, &quot;<a href="mailto:Albert@freedesktop.org">Albert@freedesktop.org</a>&quot; &lt;<a href="mailto:Albert@freedesktop.org">Albert@freedesktop.org</a>&gt;, &quot;<a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a>&quot; &lt;<a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a>&gt;<br><span style="font-weight:bold">Subject: </span> Re: [poppler] Extract title from pdf file.<br></div><div><br></div><div><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; "><div>I am sorry to be pedantic, but this is EXTREMELY IMPORTANT…</div><div><br></div><div>What you are doing is adding HEURISTICS into Poppler to GUESS at the logical structure of a PDF. &nbsp;You are <span style="font-style: italic">NOT</span>&nbsp;actually taking into account any REAL LIVE logical structure that was put their by the PDF producer. &nbsp;</div><div><br></div><div>PDF 1.3 is about 15 YEARS OLD. &nbsp;NUMEROUS ADVANCES have been made to the format. &nbsp;PDF is currently at 1.7, as standardized by the ISO and adopted as national standards by almost 50 countries around the world. &nbsp;Version 2.0 (ISO 32000-2) is almost complete! &nbsp;To work only with 1.3 is, honestly, a waste. &nbsp;You are missing HUGE PIECES of functionality found in the majority of real-world documents.</div><div><br></div><div>I am sure your code is wonderful. &nbsp;However, given that it is based on 1.3 and does not recognize existing PDF structure, it seems SEVERELY limited in real world use.&nbsp;</div><div><br></div><div>Leonard</div><div><br></div><span id="OLK_SRC_BODY_SECTION"><div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt"><span style="font-weight:bold">From: </span> Alec Taylor &lt;<a href="mailto:alec.taylor6@gmail.com">alec.taylor6@gmail.com</a>&gt;<br><span style="font-weight:bold">Date: </span> Thu, 10 Nov 2011 13:57:54 -0800<br><span style="font-weight:bold">To: </span> Leonard Rosenthol &lt;<a href="mailto:lrosenth@adobe.com">lrosenth@adobe.com</a>&gt;<br><span style="font-weight:bold">Cc: </span> &quot;<a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a>&quot; &lt;<a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a>&gt;, Albert Cid &lt;<a href="mailto:aacid@kde.org">aacid@kde.org</a>&gt;<br><span style="font-weight:bold">Subject: </span> Re: [poppler] Extract title from pdf file.<br></div><div><br></div><p>As was previously mentioned, I am adding the semantic and logical structuring into poppler core.</p><p>My plan is to figure out what fits into which category by post processing the XML. Any suggestions on how to reverse [or post?!] engineer this XML back into the PDF would be appreciated.</p><p>In a few days I will have a very accurate XML genereated with &lt;header&gt;&lt;/header&gt;, &lt;footer&gt;&lt;/footer&gt; and table of contents tags.</p><p>This will involve the &quot;pushing&quot; of the actual &quot;printed&quot; page numbers, and adding hyperlink to each ToC entry, and partitioning the page structure as far as the 1.3 standard allows.</p><p>My code is extremely modular, neat &amp; efficient, and included the writing of an OO API. So it should be easily extendable with author, title, publisher, year and section title extraction capabilities.</p></span></div></div></span></body></html>