2

我想將新聞文章分類到它所屬的類別中。我有4類新聞,例如「技術,體育,政治和健康」。我已經爲每個類別收集了大約50份文件作爲訓練集新聞文章多類分類算法

**訓練數據是否足以用於分類?我應該使用哪種算法進行分類? SVM,隨機森林,Knn,??

我使用Scikit學習http://scikit-learn.org/ [巨蟒]庫我的任務

感謝

+0

數據足以訓練,但我懷疑你的準確性會對新數據高。 –

+0

如果您使用Naive-Bayes,它也很好,因爲它也適用於小型訓練集。但是我建議你使用更多的訓練數據,因爲訓練數據的大小越大,準確性越高。 – chopss

回答

3

有很多方法來攻擊這個問題的形式對控釋肥隨機森林。

由於您的培訓數據有限,我建議您使用線性SVM等高偏差模型。首先訓練每個班級的一個模型和所有模型,並以最高的可能性預測班級。這將爲您提供一個基準,指出您的問題對於給定的培訓數據有多難。

+0

好吧。我應該收集更多的訓練數據嗎? – Ritesh

+0

對90%的數據進行訓練並查看10%未用於訓練的錯誤。這會給你一個估計問題的難度。您需要多少訓練數據的答案總是「更多」。此外,請記住,如果99%的示例全部來自同一個類,則99%的準確性很容易實現。 –

0

我更喜歡你使用Naive-Bayes分類。有一個名爲Ling-pipe的工具已經實施。你想要做的僅僅是指

http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html

有你有一個小樣本程序Classifynews.java。通過訓練數據運行的程序和應用測試。一個訓練數據樣本被給定爲「20個新聞組」

http://qwone.com/~jason/20Newsgroups/

培訓可以通過訓練數據應用,如果需要,你可以建立一箇中間模型,然後將測試數據應用到該模型中。 Naive-Bayes適用於訓練數據量較小的情況。

但是,隨着訓練數據量的增加,其準確度也會增加。所以儘量包括更多的新聞組。祝你好運。試試這個,讓我知道