2013-04-10 96 views
0

對於我目前的項目,我必須建立一個主題建模或分類實用程序,它將處理數以千計的文章,將它們分類爲各種主題(主題可能是40-50從開始)。對於例如它會瀏覽數據庫技術文章,並將它們分類爲文章是否爲NOSQL文章/關係數據庫文章/圖數據庫文章(僅舉例)。建築文章分類器 - NLTK/Scikit學習/其他NLP實現

我有非常基本的NLP背景,我們的團隊主要有python後端腳本經驗。我開始研究可用於實現它的各種選項,並且遇到了基於Python的NLTK和Scikit-Learn,以及基於JVM的Weka和Mallet。
我的理解是,NLTK更適合學習和理解各種NLP技術,如主題分類。

有人可以建議什麼可能是我們可以用於我們的實施最好的開源解決方案嗎? 如果我錯過了任何有助於解答問題的信息,請讓我知道。

+2

您是否擁有現有的培訓文章集?如果是這樣,它有多大?另外,您的示例主題非常接近,因此要比正在捕魚,天文學和16世紀畫家的算法正確分類要困難得多。這些細節很大程度上決定了哪種算法適合您的情況。 – 2013-04-10 08:05:01

+0

對「最佳」工具包的建議是無關緊要的。請參閱[常見問題](http://stackoverflow.com/faq)。如果你正在尋找性能,我會避免NLTK,它主要是一個教育工具包,雖然它可以用於原型。 – 2013-04-10 14:04:53

+0

是的,我們有一些培訓文章可用於某些主題(20-50篇文章)。我們可以從更多不同的主題開始,然後轉向更精煉的主題。 – whosthr 2013-04-11 19:03:28

回答

0

構建主題分類模型可以通過兩種方式完成。 如果您有一套訓練集,您可以使用scikit來構建分類器,但您可以使用scikit來構建分類器。

但是,如果您沒有任何訓練數據,則可以構建稱爲主題模型的內容。它基本上把你的話題作爲一組單詞。

您可以使用Gensim軟件包來執行此操作。非常清晰,快速且易於實施(Look Here