如何將reuters-21578數據集與svm.net用於文本分類？

我剛剛開始了一個文本分類應用程序，我已經閱讀了很多關於這個主題的論文，但是直到現在我不知道如何開始，我覺得我還沒有獲得整個圖像。我已經獲得了訓練數據集並閱讀了其描述，併爲SVM算法（SVM.Net）獲得了很好的實現，但我不知道如何在該實現中使用該數據集。我知道我應該從數據集的文本中提取特徵，並將這些特徵用作SVM的輸入，因此任何人都可以告訴我關於如何提取文本特徵並將它們用作SVM算法輸入的詳細教程，然後使用這種算法來分類一個新的文本？如果有關於使用SVM進行文本分類的完整示例，那就太好了。如何將reuters-21578數據集與svm.net用於文本分類？

任何幫助，將不勝感激。在此先感謝。

來源

2011-05-23 Mousa

爲文本分類創建特徵可以像您希望的那樣複雜。

一個簡單的方法是將每個不同的術語映射到一個特徵索引。然後，您將每個文檔表示爲每個術語頻率的矢量。（你可以刪除停用詞，重量等等）。對於文本分類，您還可以爲每個矢量分配標籤。

例如，如果該文件是一句：

John loves Mary

帶有標籤的「垃圾郵件」。

那麼你可能有以下映射：

John : 1 
loves: 2 
Mary: 3

那麼你的載體變成：

1 1 2 1 3 1

（我已假定每個功能有重量的一種）

我不不瞭解SVM.NET，但大多數受監督的機器學習方法將接受基於向量的輸入。

來源

2011-05-23 13:24:58

謝謝你的回答，但我已經讀過，正如我所提到的，我擁有的路透數據集不是一個小數據集，所以我需要找到最適合的方式來表示每篇文章。有些東西像構建信息檢索索引 – Mousa 2011-05-23 16:51:37

這遠不是從文本中提取特徵的最佳方式。更好的方法是使用正交特徵：「約翰：100，喜歡：010，瑪麗001」。 – 2011-05-23 19:04:06

這樣做的真實是一個不同的問題（注意我說「簡單」）。實際上，你會使用稀疏表示法，創建倒排索引等等。從單詞到術語的底層映射將是相同的。 – 2011-05-25 10:37:12

如何將reuters-21578數據集與svm.net用於文本分類？

回答

相關問題