如果功能是文本摘要，如何在scikit中使用SVC學習？

我的問題是如果數據集中有6個要素，如果某個要素是非數字要素，我可以通過標籤編碼器或其他方法轉換它們。但是如果其中一個特徵是一個巨大的文本體（一段），我應該使用哪些預處理技術來對SVC或KNN分類器（而不是樸素貝葉斯）進行建模？
謝謝。如果功能是文本摘要，如何在scikit中使用SVC學習？

2014-10-26 sbalajis

您是否有計劃使用某些基於語言語料庫的工具（類似NLTK）預處理「巨大文本體」，以便提取某些功能工程輸出結果？ – user3666197 2014-10-29 17:45:26

是的，找到了一些不好的單詞，主題等。但我很困惑如何將其他5個特性與這個NLP-6特性相關聯，以便我可以在SVC或KNN中使用它。 – sbalajis 2014-10-29 17:55:14

這個案例在我看來與此相反，你必須設計和處理基於NLP的新特性，這些特性將與那些準備好的，一起進入一個「scikit-learn」SVC分類器訓練/驗證設置。 – user3666197 2014-10-29 18:08:37

您可以使用CountVectorizer或TfidfVectorizer，它們是文本特徵提取的標準方法。您可以找到documentation here和comprehensive tutorial on working with text data here。

2014-11-02 16:57:21

回答