Proposed pt-PT thesaurus usage permission confirmation e-mail
Tiago Santos
tiagofsantos81 at sapo.pt
Sat Aug 27 14:25:39 UTC 2016
Good afternoon,
In addition to the public free usage statement and base files that can
be obtained on:
http://www.linguateca.pt/PAPEL/
Appended I forward, with consent, the relevant e-mail containing the
usage permission confirmation from Project PAPEL and Onto.pt, used in a
proposal for an updated European Portuguese thesaurus.
Best regards,
Tiago Santos
-------- Mensagem reencaminhada --------
Assunto: Re: Licença Projecto PAPEL
Data: Wed, 17 Aug 2016 18:22:16 +0100
De: Hugo Gonçalo Oliveira <hroliv at dei.uc.pt>
Para: Tiago Santos <tiagofsantos81 at sapo.pt>
Caro Tiago,
Realmente não há quaisquer restrições à utilização do PAPEL e pode com
ele fazer o que quiser. Ia jurar que o pacote com as relações incluía um
ficheiro com uma licença BSD do mais permissiva que há, mas já confirmei
que não. Talvez só as gramáticas estejam acompanhadas desse ficheiro...
Espero que a inexistência desse ficheiro não seja um obstáculo à sua
utilização para melhorar as ferramentas do Libre/OpenOffice. Aliás,
enquanto criador do recurso foi uma ideia que sempre tive em mente.
Apesar de tudo, ainda que a licença não o obrigue, agradecia que, sempre
que o PAPEL fosse utilizado ou mencionado em algum trabalho, estivesse
acompanhado de uma citação ao artigo que o apresenta, nomeadamente:
Hugo Gonçalo Oliveira, Diana Santos, Paulo Gomes, e Nuno Seco (2008).
PAPEL: A dictionary-based lexical ontology for Portuguese. In
Proceedings of Computational Processing of the Portuguese Language - 8th
International Conference (PROPOR 2008), volume 5190 of LNCS/LNAI, pages
31–40, Aveiro, Portugal. Springer.
É certo que há várias relações discutíveis e outras claramente erradas,
mas são consequências do processo de extração automático.
Aproveito para, no caso de não ter conhecimento, lhe indicar outros
recursos léxico-semânticos que podem ser úteis, nomeadamente aqueles
desenvolvidos no âmbito do meu doutoramento e disponíveis em:
http://ontopt.dei.uc.pt/
Destaco:
a) dois conjuntos de relações extraídos com as mesmas gramáticas do
PAPEL, a partir do Dicionário Aberto e do Wikcionário.PT -- ver
http://ontopt.dei.uc.pt/index.php?sec=download_outros
b) (mais recente) uma "wordnet difusa" para o português, em que há
valores de confiança associados à pertença de uma palavra a um synset e
à ligação entre dois synsets --
http://ontopt.dei.uc.pt/index.php?sec=contopt
Para a "wordnet difusa" foi utilizada uma rede extraída a partir de
vários recursos léxico-semânticos para o português. Alternativamente a
usar o PAPEL, posso arranjar-lhe essa rede, muito maior, ou um
subconjunto. Por exemplo, se apenas olhar para o subconjunto de todos os
triplos que ocorrem em pelo menos 2 recursos, ou 3, a rede é bem mais
pequena, mas a confiança muito superior.
Espero tê-lo ajudado e estou disponível para qualquer esclarecimento
adicional, fornecimento de referências, recursos ou mesmo de algum apoio
mais técnico, dentro do possível.
Cumprimentos,
Hugo Gonçalo Oliveira
2016-08-17 17:39 GMT+01:00 Tiago Santos <tiagofsantos81 at sapo.pt
<mailto:tiagofsantos81 at sapo.pt>>:
Estimado Hugo,
Escrevo-te depois de ter contactado a Linguateca. Como este projeto
teve origem em ti, julgo que podes a pessoa mais adequada para me
ajudar a compreender a licença de uso das relações oferecidas pelo
projeto PAPEL, tendo em conta que gostaria de utilizar as bases de
dados relacionais deste projeto para outros projetos que descrevo
abaixo.
Neste último mês, tenho-me dedicado a melhorar as ferramentas
linguísticas disponibilizadas pelo LibreOffice. Uma das ferramentas
que já não é mantida à vários anos é o dicionário de sinónimos
('thesaurus'). Consegui perceber o funcionamento do hunspell que é o
sistema de verificação ortográfica mais utilizado no Linux, no
OpenOffice e no LibreOffice. Este engloba também uma ferramenta de
sinonímia chamada MyThes.
Em seguida, encontrei recursos livres e gratuitos, para acrescentar
as relações ao dicionário. Essa pesquisa, trouxe-me ao PAPEL, entre
outros projetos com quem estou em contacto.
Já consegui converter o formato utilizado pelo Projeto PAPEL para um
reconhecido pelo MyThes. A triagem, fusão e formatação das
definições já existentes com as deste projeto também já foi
conseguida e o resultado final é uma melhoria efetiva do sistema já
existente.
Após ter resolvido um problema com as ferramentas atuais de
indexação (pelos meus testes) os ‘thesaurus’ das várias fontes estão
a funcionar sem qualquer erro, apesar de poder haver algumas
relações de sinonímia polémicas, que se prendem com as base dos
dados de origem.
Tendo em conta o carácter público deste projeto (Linguateca e
PAPEL), julgo não haver limitações existentes à sua transformação e
disponibilização para os investigadores da Universidade do Minho e
para a comunidade OpenSource, nomeadamente nos projetos LibreOffice
e nas várias distribuições Linux, que servem o interesse público e
estão alinhados com o manifesto da Linguateca.
Apesar de ter lido os vossos manifestos e várias teses referidas no
vosso site, não consegui encontrar informações concretas sobre a
licença de uso e se esta me permite a distribuição de trabalho
derivado (como no caso de recursos com as licenças Creative Commons,
GPL, LGPL, entre outras). Por favor, indiquem-me onde posso
encontrar informação sobre a licença de uso de forma a eu puder
avançar com a distribuição dos resultados, que devem ser do
interesse do público em geral.
Grato pela atenção prestada.
Os melhores cumprimentos,
Tiago Santos
More information about the LibreOffice
mailing list