基於極度隨機化樹和特徵冗餘的特徵重要性

我正在使用Scikit-learn Extremely Randomized Trees算法獲取有關相對特徵重要性的信息，並且我對如何對「冗餘特徵」進行排名提出了疑問。基於極度隨機化樹和特徵冗餘的特徵重要性

如果我有兩個相同（冗餘）且對分類非常重要的特徵，則極度隨機化的樹無法檢測到特徵的冗餘。也就是說，這兩個功能都有很高的排名。有沒有其他方法可以檢測到兩個功能實際上是多餘的？

2013-01-13 user963386

我建議將它遷移到stats.stackexchange.com – Simone

也許您可以提取前n個重要特徵，然後計算成對Spearman或Pearson相關性，以便僅檢測頂級信息特徵的冗餘，因爲計算所有成對特徵相關性可能是不可行的（二次方功能數量）。

雖然可以通過利用特徵的相對出現次數的統計作爲決策樹中的節點來實現同樣的更聰明的方法。

2013-01-14 00:13:30 ogrisel

回答