培訓和測試分類文本文件的數據集

-6

假設我們有10000個文本文件，我們想分類爲政治，健康，天氣，體育，科學，教育......... 我需要培訓數據集用於文本文檔的分類，我是樸素貝葉斯分類算法。任何人都可以幫助獲取數據集。或是否有任何其他方法可以完成分類......我是機器學習新手請完整解釋您的答案。培訓和測試分類文本文件的數據集

實施例：

 **Sentence**           **Output**

1）奧巴馬贏得大選。 ----------------------------------------------->政治

2）印度贏了10個門票---------------------------------------- ------>運動

3）菸草更危險-------------------------------- ------------->健康

4）牛頓運動定律可以應用到汽車-------------->科學

任何方式將這些句子分類到各自的類別

歡迎來到StackOverflow。請閱讀並遵守幫助文檔中的發佈準則。 [主題]（http://stackoverflow.com/help/on-topic）適用於此處。 – Prune

您是否嘗試過Google？文本分類有數噸和數噸的數據集。經典之一是路透社 - 21578（https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection），另一個着名的幾乎每個ML書中提到的是20個新聞組：http://web.ist.utl.pt/acardoso/datasets/

但是還有很多其他的，一個谷歌查詢遠離你。只需加載它們，根據需要稍作調整，並在該數據集上訓練分類器。

2015-10-26 15:43:33

我已經下載了路透社和20個新聞組。但我的問題是我沒有得到如何在我的系統中使用它們。我的天真貝葉斯分類器採取輸入爲 –

我已經下載了路透社和20新聞組。但我的問題是我沒有得到如何在我的系統中使用它們。我的樸素貝葉斯分類器將輸入作爲trainingFiles.put（Classifier_NAME，NaiveBayesExample.class.getResource（Filename_HERE））; –

好的 - 當您使用其中一個您發現的文件來訓練模型時發生了什麼？你已經有了文件名;選擇你想要的分類器，指定並分類。 – Prune

回答