我有一本書,其中每本書都屬於一個類別。用Java對記錄進行分類
- 駕駛飛機 - 航空
- 畫一幅畫 - 藝術
- 1001食譜 - 烹飪
我有數據的巨大足夠的樣本集。我需要使用一些算法來分類我的新書。我知道這絕對不會百分百準確,但一個好的猜測對我來說是有好處的。
我應該用什麼來實現這樣的事情?我應該去Classifier4J和Vector Classifier?
還有其他的工具,我應該看看像Weka?如果有人能指點我一些文章/例子讓我開始,那將是非常棒的。
感謝
我有一本書,其中每本書都屬於一個類別。用Java對記錄進行分類
我有數據的巨大足夠的樣本集。我需要使用一些算法來分類我的新書。我知道這絕對不會百分百準確,但一個好的猜測對我來說是有好處的。
我應該用什麼來實現這樣的事情?我應該去Classifier4J和Vector Classifier?
還有其他的工具,我應該看看像Weka?如果有人能指點我一些文章/例子讓我開始,那將是非常棒的。
感謝
Lingpipe似乎是一個很好的解決方案,似乎運作良好。在Lingpipe附帶的演示是開始的好地方:
http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html
有上https://www.coursera.org/course/ml一門課程叫機器學習。如果你把你的問題看作是分類,你應該訓練N
One-vs-All分類器,其中N
是你的類的數量(=類別)。爲了訓練自然語言處理類https://www.coursera.org/course/nlp中描述的算法的分類器使用,通常它將與現有類http://nlp.stanford.edu/IR-book/html/htmledition/text-classification-and-naive-bayes-1.html相似。所有這些都可以在Apache Mahout中使用https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian完成。
你可以看看快速礦工。 – toniedzwiedz
看看這個:[java-text-classification-problem](http://stackoverflow.com/questions/2821575/java-text-classification-problem),你們幾乎完全一樣。 – 16dots