2015-10-26 130 views
-6

假設我們有10000個文本文件,我們想分類爲政治,健康,天氣,體育,科學,教育......... 我需要培訓數據集用於文本文檔的分類,我是樸素貝葉斯分類算法。任何人都可以幫助獲取數據集。 或 是否有任何其他方法可以完成分類......我是機器學習新手請完整解釋您的答案。培訓和測試分類文本文件的數據集

實施例:

 **Sentence**           **Output** 

1)奧巴馬贏得大選。 ----------------------------------------------->政治

2)印度贏了10個門票---------------------------------------- ------>運動

3)菸草更危險-------------------------------- ------------->健康

4)牛頓運動定律可以應用到汽車-------------->科學

任何方式將這些句子分類到各自的類別

+1

歡迎來到StackOverflow。請閱讀並遵守幫助文檔中的發佈準則。 [主題](http://stackoverflow.com/help/on-topic)適用於此處。 – Prune

回答

1

您是否嘗試過Google?文本分類有數噸和數噸的數據集。經典之一是路透社 - 21578(https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection),另一個着名的幾乎每個ML書中提到的是20個新聞組:http://web.ist.utl.pt/acardoso/datasets/

但是還有很多其他的,一個谷歌查詢遠離你。只需加載它們,根據需要稍作調整,並在該數據集上訓練分類器。

+0

我已經下載了路透社和20個新聞組。但我的問題是我沒有得到如何在我的系統中使用它們。我的天真貝葉斯分類器採取輸入爲 –

+0

我已經下載了路透社和20新聞組。但我的問題是我沒有得到如何在我的系統中使用它們。我的樸素貝葉斯分類器將輸入作爲trainingFiles.put(Classifier_NAME,NaiveBayesExample.class.getResource(Filename_HERE)); –

+0

好的 - 當您使用其中一個您發現的文件來訓練模型時發生了什麼?你已經有了文件名;選擇你想要的分類器,指定並分類。 – Prune