<html><head>
<meta http-equiv="Content-Type" content="text/html; charset=Windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; color: rgb(0, 0, 0); font-size: 14px; font-family: Calibri, sans-serif; "><div>Sorry for the delay — been on an airplane all day — and had a lot of emails to read on the list. &nbsp;;-)</div><div><br></div><div>1) &nbsp;You can use both –s and –c at the same time.</div><div>2) Ok, was worth a shot. &nbsp;I've lost track a little bit where the code base is — I haven't yet contributed back everything, just because it takes time to format the patches. &nbsp;I definitely have code that embeds the size of each paragraph — well, at least I think it's what you want. &nbsp;I've attached a sample file — let me know.</div><div>3) I'm a little surprised, but yes, I confirmed that the Arabic shows up in the wrong direction even in my version. &nbsp;Looks like we'll need to do some work to make it handle right-to-left text correctly. &nbsp;If you want to write the patch, contact me off-list and I'll try and help you do it.</div><div><br></div><div>--josh</div><div><br></div><span id="OLK_SRC_BODY_SECTION"><div style="font-family:Calibri; font-size:11pt; text-align:left; color:black; BORDER-BOTTOM: medium none; BORDER-LEFT: medium none; PADDING-BOTTOM: 0in; PADDING-LEFT: 0in; PADDING-RIGHT: 0in; BORDER-TOP: #b5c4df 1pt solid; BORDER-RIGHT: medium none; PADDING-TOP: 3pt"><span style="font-weight:bold">From: </span> Justine Guillaumont &lt;<a href="mailto:justine.guillaumont@gmail.com">justine.guillaumont@gmail.com</a>&gt;<br><span style="font-weight:bold">Date: </span> Fri, 23 Sep 2011 04:35:52 -0700<br><span style="font-weight:bold">To: </span> &quot;<a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a>&quot; &lt;<a href="mailto:poppler@lists.freedesktop.org">poppler@lists.freedesktop.org</a>&gt;<br><span style="font-weight:bold">Subject: </span> [poppler] pdftohtml (width-height and Arabic pdf)<br></div><div><br></div>Hi,<br><br>It seems that the subject from my fisrt email has diverged...
 I open this new subject to let you finish your conversation on the 
other.<br><br>Thank you for your advice Josh. I finally succed to built the latest version of the GIT ! But my problems are the same...<br><br>1)
 pdftohtml -c generate indeed xhtml but I prefer the display of 
pdftohtml -s (all the pages in one html). I will keep (and modify) my 
xsl to obtain xhtml with pdftohtml -s<br><br>2) the &lt;div&gt; I was talking about (in version 0.16.7) has been 
replace by &lt;p&gt; in the lastest version, and they don't contain 
width and height either...<br>Example : &lt;P style=&quot;position:absolute;top:2187px;left:364px;white-space:<div>nowrap&quot; class=&quot;ft01&quot;&gt;<br><div><br>3) I tryed severals arabic pdf with the lastest version and I did 
obtain the same results (with pdftohtml -c and pdftohtml -s) : all the 
text is backwards (see enclusure). Do have one arabic pdf that has a 
good rendering ?<br><br>Justine<br></div></div></span></body></html>