1
有誰知道Apache Mahout是否能很好地處理西班牙文本?我需要用西班牙語對報紙文章進行聚類,並且沒有太多的工具可以做到。我認爲Mahout是一個很酷的框架,但是它能很好地處理西班牙文本?apache mahout文本西班牙文
有誰知道Apache Mahout是否能很好地處理西班牙文本?我需要用西班牙語對報紙文章進行聚類,並且沒有太多的工具可以做到。我認爲Mahout是一個很酷的框架,但是它能很好地處理西班牙文本?apache mahout文本西班牙文
爲什麼不呢?您可以使用seq2sparse
命令的bin/mahout
腳本,並使用-a
選項指定相應的Lucene分析器(org.apache.lucene.analysis.es.SpanishAnalyzer
)。參見Mahout in Action book的第8章(第199-200頁)。
除此之外,您還可以使用現有的分析儀編寫自己的分析儀。本書包含很多例子,你可以找到源代碼in repository。
非常感謝此信息,請參閱 – user1566669