新聞文章多類分類算法

我想將新聞文章分類到它所屬的類別中。我有4類新聞，例如「技術，體育，政治和健康」。我已經爲每個類別收集了大約50份文件作爲訓練集新聞文章多類分類算法

**訓練數據是否足以用於分類？我應該使用哪種算法進行分類？ SVM，隨機森林，Knn，??

我使用Scikit學習http://scikit-learn.org/ [巨蟒]庫我的任務

感謝

2014-03-29 Ritesh

數據足以訓練，但我懷疑你的準確性會對新數據高。 –

如果您使用Naive-Bayes，它也很好，因爲它也適用於小型訓練集。但是我建議你使用更多的訓練數據，因爲訓練數據的大小越大，準確性越高。 – chopss

有很多方法來攻擊這個問題的形式對控釋肥隨機森林。

由於您的培訓數據有限，我建議您使用線性SVM等高偏差模型。首先訓練每個班級的一個模型和所有模型，並以最高的可能性預測班級。這將爲您提供一個基準，指出您的問題對於給定的培訓數據有多難。

2014-03-29 18:10:25

好吧。我應該收集更多的訓練數據嗎？ – Ritesh

對90％的數據進行訓練並查看10％未用於訓練的錯誤。這會給你一個估計問題的難度。您需要多少訓練數據的答案總是「更多」。此外，請記住，如果99％的示例全部來自同一個類，則99％的準確性很容易實現。 –

我更喜歡你使用Naive-Bayes分類。有一個名爲Ling-pipe的工具已經實施。你想要做的僅僅是指

有你有一個小樣本程序Classifynews.java。通過訓練數據運行的程序和應用測試。一個訓練數據樣本被給定爲「20個新聞組」

培訓可以通過訓練數據應用，如果需要，你可以建立一箇中間模型，然後將測試數據應用到該模型中。 Naive-Bayes適用於訓練數據量較小的情況。

但是，隨着訓練數據量的增加，其準確度也會增加。所以儘量包括更多的新聞組。祝你好運。試試這個，讓我知道

2014-07-15 09:22:34 chopss

回答