2015-12-11 33 views
3

我有關於合奏功能選擇的問題。從功能集合中選擇合奏功能

我的數據集由1000個具有約30000個特徵的樣本組成,它們分爲標籤A或標籤B. 我想要做的是挑選某些可以高效分類標籤的特徵。我使用了三種類型的方法,單變量法(Pearson係數),套索迴歸和SVM-RFE(遞歸特徵消除),所以我從它們中獲得了三個特徵集。我使用python scikit-learn進行功能選擇。

然後我在考慮集成特徵選擇方法,因爲特徵的大小非常大。在這種情況下,使用3個功能集製作集成子集的方法是什麼?

我能想到的是將這些集合聯合起來,並再次使用套索迴歸或SVM-RFE,或者只是採用集合的交集。

任何人都可以提供一個想法嗎?

回答

1

我想你要做什麼取決於你以後如何使用這些功能。如果您的目標是「有效地對標籤進行分類」,您可以做的一件事就是使用您的分類算法(即SVC,套索等)作爲包裝,並執行Recursive Feature Elimination (RFE) with cross-validation

您可以從之前使用的三種方法中的特徵聯合開始,或者從您希望擬合的給定類型的模型開始,因爲示例數量很少。無論如何,我相信在你的案例中選擇功能的最佳方式是選擇那些優化你的目標的方法,這似乎是分類準確性,因此是簡歷提案。

+0

非常感謝。正如你所提到的,我的目標是找到一個重要的特徵,它可以優化分類的準確性(或靈敏度)。另外我想找出選定特徵的一些共同特徵,所以使用大量特徵(根據它們的權重)的一般分類不能直接應用。帶CV的RFE似乎很適合消除不必要的功能。感謝您的建議。 – ToBeSpecific