0
我的問題是如果數據集中有6個要素,如果某個要素是非數字要素,我可以通過標籤編碼器或其他方法轉換它們。但是如果其中一個特徵是一個巨大的文本體(一段),我應該使用哪些預處理技術來對SVC或KNN分類器(而不是樸素貝葉斯)進行建模?
謝謝。如果功能是文本摘要,如何在scikit中使用SVC學習?
我的問題是如果數據集中有6個要素,如果某個要素是非數字要素,我可以通過標籤編碼器或其他方法轉換它們。但是如果其中一個特徵是一個巨大的文本體(一段),我應該使用哪些預處理技術來對SVC或KNN分類器(而不是樸素貝葉斯)進行建模?
謝謝。如果功能是文本摘要,如何在scikit中使用SVC學習?
您可以使用CountVectorizer或TfidfVectorizer,它們是文本特徵提取的標準方法。您可以找到documentation here和comprehensive tutorial on working with text data here。
您是否有計劃使用某些基於語言語料庫的工具(類似NLTK)預處理「巨大文本體」,以便提取某些功能工程輸出結果? – user3666197 2014-10-29 17:45:26
是的,找到了一些不好的單詞,主題等。但我很困惑如何將其他5個特性與這個NLP-6特性相關聯,以便我可以在SVC或KNN中使用它。 – sbalajis 2014-10-29 17:55:14
這個案例在我看來與此相反,你必須設計和處理基於NLP的新特性,這些特性將與那些準備好的,一起進入一個「scikit-learn」SVC分類器訓練/驗證設置。 – user3666197 2014-10-29 18:08:37