2017-06-30 141 views
-2

我是非常新的python和機器學習,我有一些預定義的類別或標記集像這樣[cricket, football, politics, education, movie]等現在我想識別給定的文章是我試圖計算給定文章的文字並與特定類別(如書包)中的大多數詞語計數相匹配。使用python的文章分類在給定的類別

但BOW(袋字)沒有解決我的問題,例如考慮這個下面的文章的例子:

article 1: " BCCI nominate Ravi Shatri name as Indian coach " article 2: " Sachin Tendulakar is a member of Rajya Sabha "

在裝Cricket類別和第二條本兩篇文章的第一篇文章上方裝配到Politics類別,但與弓本文不適合給任何類別。

我的問題是如何解決這篇文章的分類問題,哪種算法最適合這個問題。任何幫助非常感謝。

+0

一些可能對您有用的方法是最近鄰,SVM或神經網絡。但這取決於問題的複雜性以及您應該選擇哪種方法的培訓數據量 – Mathias

回答

1

收集板球,足球,政治,教育,電影相關文章的數據。那麼數據集將是段落,並且它們屬於上述類別之一。

現在訓練一個分類器,給出一篇文章可以預測這篇文章屬於哪個類別。您可以從最簡單的袋子文字表示分類的文章,然後分析結果和準確性。之後,可以轉向更復雜的方法,如單詞向量或文檔向量來表示單詞,然後訓練分類器。

做出分類模型後,爲了給測試文檔分配類別,您需要使用分類模型對其進行分類。