2011-04-09 27 views
2

我對學習文本分類感興趣,所以正在閱讀理論。下一步是做東西,因此我正在尋找和使用不同的工具。一些鏈接指向WEKA,但Mallet似乎更適合此任務,但沒有人鏈接到此工具。如果想要開展一個「嚴肅」的項目,是否有理由遠離馬勒特?我能夠用Mallet快速訓練一些分類器並對它們進行測試,而對於WEKA,我使用過濾器將文本文件轉換爲以其中文本類別命名的地圖後,我遇到了一個問題,即我的標籤「消失」。文本分類工具

回答

0

這取決於您正在執行的任務。 Mallet也是一種常用的工具,Weka和Mallet都有其優點和缺點。 對於簡單的任務,兩者都易於使用。我通常更喜歡Weka進行聚類和分類任務。

注意:不要被Weka在論壇帖子中的受歡迎程度所誤導,它主要是與它在較長時間內使用有關,而Mallet與Weka相比是新的。

+0

我有一個大約有150.000個術語的語料庫,並且試圖在我的2GB機器上使用樸素貝葉斯分類器進行訓練,導致使用Weka時出現內存不足錯誤。使用Mallet一切正常,訓練完成得非常快。沒有任何工具明確地減少任何維度。因此,與Wekas arff文件格式相比,或者Mallet在其對此任務的表示方面效率明顯更高,或者我沒有正確地做事。然而,我正密切關注Mallet和Weka的指示。 – Michael 2011-04-18 16:08:05