我剛剛開始了一個文本分類應用程序,我已經閱讀了很多關於這個主題的論文,但是直到現在我不知道如何開始,我覺得我還沒有獲得整個圖像。我已經獲得了訓練數據集並閱讀了其描述,併爲SVM算法(SVM.Net)獲得了很好的實現,但我不知道如何在該實現中使用該數據集。我知道我應該從數據集的文本中提取特徵,並將這些特徵用作SVM的輸入,因此任何人都可以告訴我關於如何提取文本特徵並將它們用作SVM算法輸入的詳細教程,然後使用這種算法來分類一個新的文本? 如果有關於使用SVM進行文本分類的完整示例,那就太好了。如何將reuters-21578數據集與svm.net用於文本分類?
任何幫助,將不勝感激。 在此先感謝。
謝謝你的回答,但我已經讀過,正如我所提到的,我擁有的路透數據集不是一個小數據集,所以我需要找到最適合的方式來表示每篇文章。有些東西像構建信息檢索索引 – Mousa 2011-05-23 16:51:37
這遠不是從文本中提取特徵的最佳方式。更好的方法是使用正交特徵:「約翰:100,喜歡:010,瑪麗001」。 – 2011-05-23 19:04:06
這樣做的真實是一個不同的問題(注意我說「簡單」)。實際上,你會使用稀疏表示法,創建倒排索引等等。從單詞到術語的底層映射將是相同的。 – 2011-05-25 10:37:12