<div dir="ltr">This is the contents of file <span style="font-family:arial,sans-serif;font-size:12.727272033691406px">output.xml </span>generated by command <span style="font-family:arial,sans-serif;font-size:12.727272033691406px">pdftotext -bbox -htmlmeta 'myfile.pdf' 'output.xml' :<br>

<br><div><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "<a href="http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd</a>"><html xmlns="<a href="http://www.w3.org/1999/xhtml">http://www.w3.org/1999/xhtml</a>"></div>

<div><head></div><div><title>Microsoft Word - Preface&Contents_Advances_in_Lasers_and_Electro_Optics.doc</title></div><div><meta name="Author" content="Teodora"/></div><div>

<meta name="Creator" content="PScript5.dll Version 5.2.2"/></div><div><meta name="Producer" content="Acrobat Distiller 8.0.0 (Windows)"/></div><div><meta name="CreationDate" content=""/></div>

<div></head></div><div><body></div><div><doc></div><div>  <page width="482.000000" height="680.000000"></div><div>    <word xMin="255.120000" yMin="190.576860" xMax="338.055540" yMax="207.269700">Advances</word></div>

<div>    <word xMin="344.000562" yMin="190.576860" xMax="359.331702" yMax="207.269700">in</word></div><div>    <word xMin="365.276724" yMin="190.576860" xMax="425.239584" yMax="207.269700">Lasers</word></div>

<div>    <word xMin="256.260624" yMin="207.256884" xMax="288.954240" yMax="223.949724">and</word></div><div>    <word xMin="294.884844" yMin="207.256884" xMax="363.168492" yMax="223.949724">Electro</word></div>

<div>    <word xMin="369.099096" yMin="207.256884" xMax="425.265216" yMax="223.949724">Optics</word></div><div>  </page></div><div></doc></div><div></body></div>

<div></html></div><div><br><br>As You can see in line 3 tag <title> contains invalid character squence with "&".  The title is extracted from myfile.pdf. CDATA or some kind of htmlspecialchars is needed.<br>

<br></div></span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px"><br></span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px"><br></span></div><div class="gmail_extra"><br clear="all">

<div><div style="font-family:Arial,Tahoma,Verdana,sans-serif;font-size:14px;color:#111111">
        <p style="font-size:18px;margin:0pt"><b>--<br></b></p><p style="font-size:18px;margin:0pt"><b>Paweł Leń</b></p></div></div>
<br><br><div class="gmail_quote">2013/11/14 suzuki toshiya <span dir="ltr"><<a href="mailto:mpsuzuki@hiroshima-u.ac.jp" target="_blank">mpsuzuki@hiroshima-u.ac.jp</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

Hi,<br>
<br>
If you could post a sample XML file that you modified the<br>
output of pdftotext to fit the XML parser, it would be<br>
helpful for some kind people to develop a patch.<br>
<br>
Regards,<br>
mpsuzuki<div><div class="h5"><br>
<br>
On 11/14/2013 10:04 PM, Paweł Leń wrote:<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
Hello,<br>
<br>
I have error when running:<br>
pdftotext -bbox -htmlmeta 'myfile.pdf' 'tempFile.xml'<br>
<br>
The output xml have <title> tag on the begining of document (meta section), error appears when title contains "&" character. Title field has no CDATA and it is not quoted so it causes error in my xmllib parser. Can I (or You :) ) fix it somehow?<br>


<br>
Beast regards<br>
<br></div></div>
*--<br>
*<br>
<br>
*Paweł Leń*<br>
<br>
<br>
<br>
______________________________<u></u>_________________<br>
poppler mailing list<br>
<a href="mailto:poppler@lists.freedesktop.org" target="_blank">poppler@lists.freedesktop.org</a><br>
<a href="http://lists.freedesktop.org/mailman/listinfo/poppler" target="_blank">http://lists.freedesktop.org/<u></u>mailman/listinfo/poppler</a><br>
<br>
</blockquote>
<br>
</blockquote></div><br></div>