2
我需要訓練一個樸素貝葉斯分類器兩個corpuses組成約。每個15,000個令牌。我正在使用一個基本的單詞袋特徵提取與二元標籤,我想知道如果NLTK是足夠強大的處理所有這些數據,而不會顯着減慢運行時間,如果這樣的應用程序獲得許多用戶。該計劃基本上將分類來自潛在數千用戶的常規文本消息流。如果不適合,是否還有其他機器學習軟件包可以推薦與NLTK集成?NLTK的樸素貝葉斯分類器是否適用於商業應用?
我需要訓練一個樸素貝葉斯分類器兩個corpuses組成約。每個15,000個令牌。我正在使用一個基本的單詞袋特徵提取與二元標籤,我想知道如果NLTK是足夠強大的處理所有這些數據,而不會顯着減慢運行時間,如果這樣的應用程序獲得許多用戶。該計劃基本上將分類來自潛在數千用戶的常規文本消息流。如果不適合,是否還有其他機器學習軟件包可以推薦與NLTK集成?NLTK的樸素貝葉斯分類器是否適用於商業應用?
您的語料庫不是很大,所以NLTK應該完成這項工作。不過,我一般不會推薦它,它在各個地方都很慢而且很麻煩。 Weka是一個更強大的工具,但它可以做得更多的事實使它更難理解。如果樸素貝葉斯是您打算使用的所有,那麼您自己編寫代碼可能是最快的。
EDIT(更晚):
嘗試scikit-learn,它是非常容易使用。
沒有與NLTK學習者的經驗,但我總是可以推薦[scikit-learn](http://scikit-learn.sf.net);我在那個庫中實現了樸素的貝葉斯類,並優化了tf-idf矢量化器。樸素貝葉斯訓練在這樣一個(小!)語料庫上不應該花費幾秒鐘的時間,並且應用分類器是很便宜的。 –