2011-05-23 26 views
3

我剛剛開始了一個文本分類應用程序,我已經閱讀了很多關於這個主題的論文,但是直到現在我不知道如何開始,我覺得我還沒有獲得整個圖像。我已經獲得了訓練數據集並閱讀了其描述,併爲SVM算法(SVM.Net)獲得了很好的實現,但我不知道如何在該實現中使用該數據集。我知道我應該從數據集的文本中提取特徵,並將這些特徵用作SVM的輸入,因此任何人都可以告訴我關於如何提取文本特徵並將它們用作SVM算法輸入的詳細教程,然後使用這種算法來分類一個新的文本? 如果有關於使用SVM進行文本分類的完整示例,那就太好了。如何將reuters-21578數據集與svm.net用於文本分類?

任何幫助,將不勝感激。 在此先感謝。

回答

4

爲文本分類創建特徵可以像您希望的那樣複雜。

一個簡單的方法是將每個不同的術語映射到一個特徵索引。然後,您將每個文檔表示爲每個術語頻率的矢量。 (你可以刪除停用詞,重量等等)。對於文本分類,您還可以爲每個矢量分配標籤。

例如,如果該文件是一句:

John loves Mary 

帶有標籤的 「垃圾郵件」。

那麼你可能有以下映射:

John : 1 
loves: 2 
Mary: 3 

那麼你的載體變成:

1 1 2 1 3 1 

(我已假定每個功能有重量的一種)

我不不瞭解SVM.NET,但大多數受監督的機器學習方法將接受基於向量的輸入。

+0

謝謝你的回答,但我已經讀過,正如我所提到的,我擁有的路透數據集不是一個小數據集,所以我需要找到最適合的方式來表示每篇文章。有些東西像構建信息檢索索引 – Mousa 2011-05-23 16:51:37

+0

這遠不是從文本中提取特徵的最佳方式。更好的方法是使用正交特徵:「約翰:100,喜歡:010,瑪麗001」。 – 2011-05-23 19:04:06

+0

這樣做的真實是一個不同的問題(注意我說「簡單」)。實際上,你會使用稀疏表示法,創建倒排索引等等。從單詞到術語的底層映射將是相同的。 – 2011-05-25 10:37:12

相關問題