2016-07-31 147 views
0

有沒有人有任何想法或可以告訴我如何從文章中提取類別?NLP - 從文本中提取類別/標籤

我擁有的是幾千篇文章(關於體育,新聞,商業等)的文集,我可以使用它。

例如,如果那裏有關於體育的文章中,我想我的程序就可以知道它的足球或籃球(或財產以後其他地方)所以輸出就不會停,如:

足球90%的籃球10%

+0

你有預先分類的文章,你可以用於培訓目的? – RAVI

+0

我希望。那麼這將是一個簡單的機器學習問題..如果我無法解決這個問題,似乎我將不得不找到一個預分類文章的語料庫,並建立它的訓練模型。 – Eran

回答

0

我想你可以使用一些機器學習方法來實現這一點。我想到的是使用tf-idf統計。

Coursera上有一個名爲「Machine Learning Foundations: A Case Study Approach」的在線課程,教導如何在課程的第4周使用tf-idf統計。

+0

我已經嘗試過使用tf-idf模型。我得到平庸的結果。文章中最重要的詞語(如湖人,科比),但不是類別。 – Eran

+0

err我會抓住所有文檔的頂級說30個關鍵字並運行某種類型的聚類算法。一些K-means變種以K =您想要的類別數開始...... –

0

由於您沒有用於培訓的黃金數據,首先您需要創建一些。

對於這一點,你需要定義類和定義一些規則這是爲每個類明顯的選擇性,

article_text.contains("soccer") 
article_text.contains("Ronaldo") 

等,以使自己的標註語料爲每個類。

這不會是100%準確的培訓數據,但它仍然足夠訓練目的。

然後,您可以使用任何ML算法進行培訓和測試。