2015-09-04 36 views
2

我在scikit-learn中使用隨機森林。我使用了feature_importances_來查看每個特徵在預測目標中有多重要。但我不明白這個分數是多少。谷歌搜索feature_importances_說這是平均減少雜質。但我仍然困惑這是否與平均降低吉吉雜質相同。如果是這樣,它如何計算樹木和隨機森林?除了數學之外,我想要真正理解它的意思。在scikit-learn中使用隨機森林時的feature_importances_

+0

有人可以幫忙嗎? – Erin

+0

簡短的答案是:'feature_importances_'讓您瞭解哪些功能對於在給定節點處正確拆分數據更爲關鍵。換句話說,越高的分數意味着*更有用的特徵,這更好地分割數據。如果某個功能的得分非常低,則可能會將其刪除。然而,大量的特徵(與樹的數量成正比)將是合乎需要的,因爲這將允許生長非常不同的樹(不相關),這將產生更廣義的分類器/迴歸器。 –

+0

找到一些幻燈片[在這裏](http://media.wix.com/ugd/6d8e3a_e177ceb85691420f88775c05c4be27f3.pdf)(14和15)說*不數學*關於它。 –

回答

1

feature_importances_功能會告訴你多少每個功能都朝着預測(信息增益)有助於

隨機森林分類基於基尼,信息增益,卡方或熵的獨立變量或特徵。這些功能將獲得高分,這對信息收益貢獻最大。