Proposed pt-PT thesaurus usage permission confirmation e-mail

Tiago Santos tiagofsantos81 at sapo.pt
Sat Aug 27 14:25:39 UTC 2016


Good afternoon,


In addition to the public free usage statement and base files that can 
be obtained on:

http://www.linguateca.pt/PAPEL/


Appended I forward, with consent, the relevant e-mail containing the 
usage permission confirmation from Project PAPEL and Onto.pt, used in a 
proposal for an updated European Portuguese thesaurus.


Best regards,


Tiago Santos



-------- Mensagem reencaminhada --------
Assunto: 	Re: Licença Projecto PAPEL
Data: 	Wed, 17 Aug 2016 18:22:16 +0100
De: 	Hugo Gonçalo Oliveira <hroliv at dei.uc.pt>
Para: 	Tiago Santos <tiagofsantos81 at sapo.pt>



Caro Tiago,

Realmente não há quaisquer restrições à utilização do PAPEL e pode com 
ele fazer o que quiser. Ia jurar que o pacote com as relações incluía um 
ficheiro com uma licença BSD do mais permissiva que há, mas já confirmei 
que não. Talvez só as gramáticas estejam acompanhadas desse ficheiro...

Espero que a inexistência desse ficheiro não seja um obstáculo à sua 
utilização para melhorar as ferramentas do Libre/OpenOffice. Aliás, 
enquanto criador do recurso foi uma ideia que sempre tive em mente.

Apesar de tudo, ainda que a licença não o obrigue, agradecia que, sempre 
que o PAPEL fosse utilizado ou mencionado em algum trabalho, estivesse 
acompanhado de uma citação ao artigo que o apresenta, nomeadamente:

Hugo Gonçalo Oliveira, Diana Santos, Paulo Gomes, e Nuno Seco (2008). 
PAPEL: A dictionary-based lexical ontology for Portuguese. In 
Proceedings of Computational Processing of the Portuguese Language - 8th 
International Conference (PROPOR 2008), volume 5190 of LNCS/LNAI, pages 
31–40, Aveiro, Portugal. Springer.

É certo que há várias relações discutíveis e outras claramente erradas, 
mas são consequências do processo de extração automático.

Aproveito para, no caso de não ter conhecimento, lhe indicar outros 
recursos léxico-semânticos que podem ser úteis, nomeadamente aqueles 
desenvolvidos no âmbito do meu doutoramento e disponíveis em: 
http://ontopt.dei.uc.pt/

Destaco:
a) dois conjuntos de relações extraídos com as mesmas gramáticas do 
PAPEL, a partir do Dicionário Aberto e do Wikcionário.PT -- ver 
http://ontopt.dei.uc.pt/index.php?sec=download_outros
b) (mais recente) uma "wordnet difusa" para o português, em que há 
valores de confiança associados à pertença de uma palavra a um synset e 
à ligação entre dois synsets -- 
http://ontopt.dei.uc.pt/index.php?sec=contopt

Para a "wordnet difusa" foi utilizada uma rede extraída a partir de 
vários recursos léxico-semânticos para o português. Alternativamente a 
usar o PAPEL, posso arranjar-lhe essa rede, muito maior, ou um 
subconjunto. Por exemplo, se apenas olhar para o subconjunto de todos os 
triplos que ocorrem em pelo menos 2 recursos, ou 3, a rede é bem mais 
pequena, mas a confiança muito superior.


Espero tê-lo ajudado e estou disponível para qualquer esclarecimento 
adicional, fornecimento de referências, recursos ou mesmo de algum apoio 
mais técnico, dentro do possível.

Cumprimentos,
Hugo Gonçalo Oliveira

2016-08-17 17:39 GMT+01:00 Tiago Santos <tiagofsantos81 at sapo.pt 
<mailto:tiagofsantos81 at sapo.pt>>:

    Estimado Hugo,

    Escrevo-te depois de ter contactado a Linguateca. Como este projeto
    teve origem em ti, julgo que podes a pessoa mais adequada para me
    ajudar a compreender a licença de uso das relações oferecidas pelo
    projeto PAPEL, tendo em conta que gostaria de utilizar as bases de
    dados relacionais deste projeto para outros projetos que descrevo
    abaixo.
    Neste último mês, tenho-me dedicado a melhorar as ferramentas
    linguísticas disponibilizadas pelo LibreOffice. Uma das ferramentas
    que já não é mantida à vários anos é o dicionário de sinónimos
    ('thesaurus'). Consegui perceber o funcionamento do hunspell que é o
    sistema de verificação ortográfica mais utilizado no Linux, no
    OpenOffice e no LibreOffice. Este engloba também uma ferramenta de
    sinonímia chamada MyThes.
    Em seguida, encontrei recursos livres e gratuitos, para acrescentar
    as relações ao dicionário. Essa pesquisa, trouxe-me ao PAPEL, entre
    outros projetos com quem estou em contacto.
    Já consegui converter o formato utilizado pelo Projeto PAPEL para um
    reconhecido pelo MyThes. A triagem, fusão e formatação das
    definições já existentes com as deste projeto também já foi
    conseguida e o resultado final é uma melhoria efetiva do sistema já
    existente.
    Após ter resolvido um problema com as ferramentas atuais de
    indexação (pelos meus testes) os ‘thesaurus’ das várias fontes estão
    a funcionar sem qualquer erro, apesar de poder haver algumas
    relações de sinonímia polémicas, que se prendem com as base dos
    dados de origem.
    Tendo em conta o carácter público deste projeto (Linguateca e
    PAPEL), julgo não haver limitações existentes à sua transformação e
    disponibilização para os investigadores da Universidade do Minho e
    para a comunidade OpenSource, nomeadamente nos projetos LibreOffice
    e nas várias distribuições Linux, que servem o interesse público e
    estão alinhados com o manifesto da Linguateca.
    Apesar de ter lido os vossos manifestos e várias teses referidas no
    vosso site, não consegui encontrar informações concretas sobre a
    licença de uso e se esta me permite a distribuição de trabalho
    derivado (como no caso de recursos com as licenças Creative Commons,
    GPL, LGPL, entre outras). Por favor, indiquem-me onde posso
    encontrar informação sobre a licença de uso de forma a eu puder
    avançar com a distribuição dos resultados, que devem ser do
    interesse do público em geral.

    Grato pela atenção prestada.
    Os melhores cumprimentos,

    Tiago Santos




More information about the LibreOffice mailing list