我是非常新的python和機器學習,我有一些預定義的類別或標記集像這樣[cricket, football, politics, education, movie]
等現在我想識別給定的文章是我試圖計算給定文章的文字並與特定類別(如書包)中的大多數詞語計數相匹配。使用python的文章分類在給定的類別
但BOW(袋字)沒有解決我的問題,例如考慮這個下面的文章的例子:
article 1: " BCCI nominate Ravi Shatri name as Indian coach " article 2: " Sachin Tendulakar is a member of Rajya Sabha "
在裝Cricket
類別和第二條本兩篇文章的第一篇文章上方裝配到Politics
類別,但與弓本文不適合給任何類別。
我的問題是如何解決這篇文章的分類問題,哪種算法最適合這個問題。任何幫助非常感謝。
一些可能對您有用的方法是最近鄰,SVM或神經網絡。但這取決於問題的複雜性以及您應該選擇哪種方法的培訓數據量 – Mathias