1

我正在對sklearn.svm.SVC進行一些文本分類任務的實驗。我知道在使用SVM建模之前執行特徵選擇是一個有點可疑的嘗試,因爲當使用全套特徵時性能通常達到峯值。從學術的角度來看,這仍然很有趣,看看不同的特徵選擇方法如何對特徵進行不同的排列sklearn.feature_selection中除Chi-2之外的特徵選擇指標

經過一番挖掘,我發現在sklearn,即Chi-2中提供了非常有限的特徵選擇度量選項。我只是想知道其他常用的度量標準,如IG和BNS是否已經在sklearn(或其他地方)中實現,我可以直接在sklearn.feature_selection.SelectKBest()中用作評分函數?

在此先感謝您的友善建議。

回答

2

InfoGain尚未實施,但我認爲@larsmans希望在未來的某個時間將其包含在內。我不知道BNS。

如果您願意,請隨時捐助。這裏是貢獻指南:

http://scikit-learn.org/dev/developers/index.html

+1

的基礎已經從統計意義的概念去耦'SelectKBest'奠定,但除此之外,我還沒有實現infogain。 –

+0

非常感謝您的澄清。如果我要實現所提及的功能選擇指標,我將爲該項目貢獻一份力量。 –

+0

@FredFoo對infogain進行scikit-learn的更新嗎? – drevicko