3
我在交叉路口,一直使用Mahout對一些文檔進行分類,並且偶然發現了OpenNLP文檔分類器。Mahout分類器訴OpenNLP文檔分類器
他們似乎做了非常類似的事情,我不知道它是否值得轉換我現在用mahout編寫的東西,並提供OpenNLP實現。
mahout比OpenNLP對文檔分類有一些明顯的優勢嗎?
我的情況是,我有幾十萬條新聞文章,我只想提取它們的一個子集。 Mahout能夠很好地完成這項工作,即使用樸素貝葉斯計算期限,然後使用TF-IDF來確定文檔屬於哪個類別。該模型會隨着新文章的發佈而更新,因此該模型會隨着時間的推移不斷改進。
看來OpenNLP文檔分類器做了一些非常相似的事情(雖然我沒有測試它是多麼準確)。 - 有沒有人有使用兩者的經驗,誰可以不同地說爲什麼會在另一個之上使用?