<div dir="ltr"><div><div><div>Hi,<br><br>The data files for libexttextcat in this directory:<br><br><a href="https://github.com/giuliopaci/libexttextcat/tree/master/langclass/ShortTexts">https://github.com/giuliopaci/libexttextcat/tree/master/langclass/ShortTexts</a><br>
<br></div>Contains a garbled Hungarian version, it's almost in iso-8859-1 but some characters are destroyed because it doesn't contain all Hungarian characters.<br><br>It is easy to pick up a utf-8 good version from <br>
<br><a href="http://www.ohchr.org/EN/UDHR/Pages/Language.aspx?LangID=hng">http://www.ohchr.org/EN/UDHR/Pages/Language.aspx?LangID=hng</a> <br><br>and see the difference.<br><br></div>It's not clear whether this prevents it from classifying Hungarian text correctly, but it may stop it working in utf-8, because most of the other files are in utf-8.<br>
<br></div>Cheers<br><br>Mark<br></div>