<html>
    <head>
      <base href="https://bugs.documentfoundation.org/">
    </head>
    <body><table border="1" cellspacing="0" cellpadding="8">
        <tr>
          <th>Bug ID</th>
          <td><a class="bz_bug_link 
          bz_status_UNCONFIRMED "
   title="UNCONFIRMED - ACCESSIBILITY: Language tagging is lost when merging LO generated PDFs with Acrobat"
   href="https://bugs.documentfoundation.org/show_bug.cgi?id=142359">142359</a>
          </td>
        </tr>

        <tr>
          <th>Summary</th>
          <td>ACCESSIBILITY: Language tagging is lost when merging LO generated PDFs with Acrobat
          </td>
        </tr>

        <tr>
          <th>Product</th>
          <td>LibreOffice
          </td>
        </tr>

        <tr>
          <th>Version</th>
          <td>3.3.0 release
          </td>
        </tr>

        <tr>
          <th>Hardware</th>
          <td>All
          </td>
        </tr>

        <tr>
          <th>OS</th>
          <td>All
          </td>
        </tr>

        <tr>
          <th>Status</th>
          <td>UNCONFIRMED
          </td>
        </tr>

        <tr>
          <th>Keywords</th>
          <td>accessibility, filter:pdf
          </td>
        </tr>

        <tr>
          <th>Severity</th>
          <td>normal
          </td>
        </tr>

        <tr>
          <th>Priority</th>
          <td>medium
          </td>
        </tr>

        <tr>
          <th>Component</th>
          <td>Printing and PDF export
          </td>
        </tr>

        <tr>
          <th>Assignee</th>
          <td>libreoffice-bugs@lists.freedesktop.org
          </td>
        </tr>

        <tr>
          <th>Reporter</th>
          <td>devseppala@gmail.com
          </td>
        </tr></table>
      <p>
        <div>
        <pre>When LibreOffice generated multilingual accessible PDF files are merged using
Adobe Acrobat, the language information in document tag structure is lost.

To my understanding, this happens because there are two ways to do language
tagging in PDF files:

<a href="https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf#page=619">https://www.adobe.com/content/dam/acom/en/devnet/pdf/pdfs/PDF32000_2008.pdf#page=619</a>

* Structure elements of any type, through a Lang entry in the structure element
dictionary. 

* Marked-content sequences that are not in the structure hierarchy, through a
Lang entry in a property list attached to the marked-content sequence with a
Span tag.

I think that LibreOffice uses the former strategy, where as Word uses the
latter. When merging Word generated PDF-files with Acrobat the language
information is retained and when merging LibreOffice generated files the
language information is lost.

The real problem if of course that Acrobat does not support PDF-standard
properly and it should fix their software.

However, it is the de facto tool for editing PDF-files and I think many users
have to merge their LibreOffice generated PDF-document with other documents
using Acrobat. This Acrobat incompatibility will result to a lot of
multilingual documents not being properly accessible. This is problematic also,
because normal accessibility checkers can not even detect that multilingual
documents are not properly language tagged, they only check that a document
level language property exists. So, in many cases language tagging will be
silently lost.

Could LibreOffice also support the language tagging method favoured by Acrobat,
in addition to the current method. I think this would resolve this issue.</pre>
        </div>
      </p>


      <hr>
      <span>You are receiving this mail because:</span>

      <ul>
          <li>You are the assignee for the bug.</li>
      </ul>
    </body>
</html>