scikit-learn的新功能和我正在處理的數據如下。結合創建SVM向量的多個參數
data[0] = {"string": "some arbitrary text", "label1": "orange", "value1" : False }
data[0] = {"string": "some other arbitrary text", "label1": "red", "value1" : True }
對於單行文本有CountVectorizer
和管道DictVectorizer
TfidfTransformer
之前。這些輸出可以連接在一起,我希望以下警告:任何文本我不想在重要性上與特定的,有限的和明確定義的參數相同。
最後,一些其他的問題,可能與
- 可能這個數據結構表明它SVM核是最好的?
- 或者在這種情況下,隨機森林/決策樹,DBN還是貝葉斯分類器可能會做得更好?或者是Ensemble method? (輸出爲multi-class)
- 我看到feature union有一個即將推出的功能,但是這是針對相同的數據運行不同的方法併合並它們。
- 我應該使用feature selection嗎?
參見:
- Implementing Bag-of-Words Naive-Bayes classifier in NLTK
- Combining feature extraction classes in scikit-learn
- http://scikit-learn.org/dev/modules/label_propagation.html
感謝您徹底回答特定問題和一般問題。 LinearSVC可以具有類別權重[1]。你爲什麼推薦?還是你不推薦,因爲這是一個數據特定的問題? [1] - http://scikit-learn.sourceforge.net/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC –
我不推薦針對'LinearSVC',我'全部用於處理文本數據。課堂重量與此無關。 –
對不起,我的意思是我試圖澄清你反對使用權重。 「......儘管使用核化的SVM,你可以爲特徵賦予人爲的小權重,使它的點積不同,但我並不是說這是個好主意。」再次感謝。 –