在scikit-learn中使用隨機森林時的feature_importances_

我在scikit-learn中使用隨機森林。我使用了feature_importances_來查看每個特徵在預測目標中有多重要。但我不明白這個分數是多少。谷歌搜索feature_importances_說這是平均減少雜質。但我仍然困惑這是否與平均降低吉吉雜質相同。如果是這樣，它如何計算樹木和隨機森林？除了數學之外，我想要真正理解它的意思。在scikit-learn中使用隨機森林時的feature_importances_

來源

2015-09-04 Erin

有人可以幫忙嗎？ – Erin

簡短的答案是：'feature_importances_'讓您瞭解哪些功能對於在給定節點處正確拆分數據更爲關鍵。換句話說，越高的分數意味着*更有用的特徵，這更好地分割數據。如果某個功能的得分非常低，則可能會將其刪除。然而，大量的特徵（與樹的數量成正比）將是合乎需要的，因爲這將允許生長非常不同的樹（不相關），這將產生更廣義的分類器/迴歸器。 –

找到一些幻燈片[在這裏]（http://media.wix.com/ugd/6d8e3a_e177ceb85691420f88775c05c4be27f3.pdf）（14和15）說*不數學*關於它。 –

feature_importances_功能會告訴你多少每個功能都朝着預測（信息增益）有助於

隨機森林分類基於基尼，信息增益，卡方或熵的獨立變量或特徵。這些功能將獲得高分，這對信息收益貢獻最大。

來源

2017-12-28 12:08:25 Taraprasanna

在scikit-learn中使用隨機森林時的feature_importances_

回答

相關問題