Hi, I saw Ross&#39; note about not being able to extract Chinese characters from certain PDFs and just wanted to mention that I&#39;ve seen the same.&nbsp; Unfortunately I am unable to share the PDFs, and from Ross&#39; note I&#39;m not quite sure how to check if it&#39;s the same problem.&nbsp; But I can mention that I have seen this problem with other languages, even English sometimes, too.&nbsp; Most frequently I&#39;ve seen poor text extraction from PDFs in Thai, though some Thai PDFs do work.&nbsp; I thought the problem might be a missing CMAP file but from your description it sounds like that might not be the case, is that correct?<br>
<br>I have also seen some Arabic text that I have not been able to interpret correctly.&nbsp; Arabic is written right to left, but when I open the XML from pdftohtml, the characters are reversed.&nbsp; That is, instead of 1234567 it looks like 7654321.&nbsp; Also, even after reversing the characters, I haven&#39;t quite been able to match them up with the text as it appears in the PDF.&nbsp; Has anyone else seen this?&nbsp; Or have a clue as to what I might be doing wrong?<br>