<html>
    <head>
      <base href="https://bugs.freedesktop.org/">
    </head>
    <body><span class="vcard"><a class="email" href="mailto:ls89822@163.com" title="Derrick <ls89822@163.com>"> <span class="fn">Derrick</span></a>
</span> changed
          <a class="bz_bug_link 
          bz_status_REOPENED "
   title="REOPENED - pdftotext cannot extract text correctly from specific pdf"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=106406">bug 106406</a>
          <br>
             <table border="1" cellspacing="0" cellpadding="8">
          <tr>
            <th>What</th>
            <th>Removed</th>
            <th>Added</th>
          </tr>

         <tr>
           <td style="text-align:right;">Status</td>
           <td>RESOLVED
           </td>
           <td>REOPENED
           </td>
         </tr>

         <tr>
           <td style="text-align:right;">Resolution</td>
           <td>INVALID
           </td>
           <td>---
           </td>
         </tr></table>
      <p>
        <div>
            <b><a class="bz_bug_link 
          bz_status_REOPENED "
   title="REOPENED - pdftotext cannot extract text correctly from specific pdf"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=106406#c5">Comment # 5</a>
              on <a class="bz_bug_link 
          bz_status_REOPENED "
   title="REOPENED - pdftotext cannot extract text correctly from specific pdf"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=106406">bug 106406</a>
              from <span class="vcard"><a class="email" href="mailto:ls89822@163.com" title="Derrick <ls89822@163.com>"> <span class="fn">Derrick</span></a>
</span></b>
        <pre>I download the evince, the file could be viewed by evince.
Could you tell me why it could not be extracted by pdftotext?

I know the file can't be extracted under the following scenes:
1. The word is drawed by line, not word.
2. The font type is fontTrueType or fontTrueTypeOT, the character set is same
as system character set.

But in this case, the font type is "fontCIDType2 Identity-H
BFAIEF+SimSun-GBK-EUC-H", I think it should by extracted correctlly.
====================================================
gs /GS1
exec op gs
  gfx state dict: << /OP false /OPM 1 /SA false /SM 0.02 /Type /ExtGState /op
false >>
BT
exec op BT
Tf /TT2 1
exec op Tf
 opSetFont args[0].getName=TT2
  font: tag=TT2 name='BFAIEF+SimSun-GBK-EUC-H' 1
Tm 16.0751 0 0 16.0751 167.949 734.655
exec op Tm
cs /Cs6
exec op cs
scn 0.019608 0.003922 0
exec op scn
Tc 0
exec op Tc
Tw 0
exec op Tw
Tj (ɩ
exec op Tj
font doShowText key=TT2 name=10 Identity-H BFAIEF+SimSun-GBK-EUC-H
ET
exec op ET
q
exec op q
i 1
exec op i
===============================================================

By default, poppler think the character is UCS-4 in operation TJ, maybe in this
case, the character is other, cause extracted uncorrectlly. 

The attachment is debug information of the pdf file by poppler.</pre>
        </div>
      </p>


      <hr>
      <span>You are receiving this mail because:</span>

      <ul>
          <li>You are the assignee for the bug.</li>
      </ul>
    </body>
</html>