1
有人可以共享顯示如何使用SVM進行使用scikit進行文本挖掘的代碼片段。我已經看到了一個關於數值數據的SVM的例子,但不太清楚如何處理文本。我看着http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html 但找不到SVM。使用scikit進行文本挖掘的SVM
有人可以共享顯示如何使用SVM進行使用scikit進行文本挖掘的代碼片段。我已經看到了一個關於數值數據的SVM的例子,但不太清楚如何處理文本。我看着http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html 但找不到SVM。使用scikit進行文本挖掘的SVM
在文本挖掘問題中,文本用數字值表示。每個特徵代表一個字,值是二進制數。這給了一個矩陣有很多零和幾個1,這意味着相應的單詞存在於文本中。可以根據詞的頻率或其他標準給詞賦予一些權重。然後你會得到一些真正的數字而不是0和1
數據集轉換爲數值,你可以用這個例子後:http://scikit-learn.org/dev/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC