2012-12-06 84 views
1

有誰知道Apache Mahout是否能很好地處理西班牙文本?我需要用西班牙語對報紙文章進行聚類,並且沒有太多的工具可以做到。我認爲Mahout是一個很酷的框架,但是它能很好地處理西班牙文本?apache mahout文本西班牙文

回答

0

爲什麼不呢?您可以使用seq2sparse命令的bin/mahout腳本,並使用-a選項指定相應的Lucene分析器(org.apache.lucene.analysis.es.SpanishAnalyzer)。參見Mahout in Action book的第8章(第199-200頁)。

除此之外,您還可以使用現有的分析儀編寫自己的分析儀。本書包含很多例子,你可以找到源代碼in repository

+0

非常感謝此信息,請參閱 – user1566669