2012-06-07 72 views
5

我有一本書,其中每本書都屬於一個類別。用Java對記錄進行分類

  • 駕駛飛機 - 航空
  • 畫一幅畫 - 藝術
  • 1001食譜 - 烹飪

我有數據的巨大足夠的樣本集。我需要使用一些算法來分類我的新書。我知道這絕對不會百分百準確,但一個好的猜測對我來說是有好處的。

我應該用什麼來實現這樣的事情?我應該去Classifier4J和Vector Classifier

還有其他的工具,我應該看看像Weka?如果有人能指點我一些文章/例子讓我開始,那將是非常棒的。

感謝

+0

你可以看看快速礦工。 – toniedzwiedz

+1

看看這個:[java-text-classification-problem](http://stackoverflow.com/questions/2821575/java-text-classification-problem),你們幾乎完全一樣。 – 16dots

回答

1

有上https://www.coursera.org/course/ml一門課程叫機器學習。如果你把你的問題看作是分類,你應該訓練N One-vs-All分類器,其中N是你的類的數量(=類別)。爲了訓練自然語言處理類https://www.coursera.org/course/nlp中描述的算法的分類器使用,通常它將與現有類http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html相似。所有這些都可以在Apache Mahout中使用https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian完成。

相關問題