2009-04-10 85 views
42

我想在R.使用隨機森林包分類R無規森林變量重要性

列出的變量重要性措施是:

  • 意味着變量x的原始重要性得分爲0類
  • 平均原始重要性得分變量x的類1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

現在我知道這些「意思」是什麼,因爲我知道他們的定義。我想知道的是如何使用它們。

我真正想知道的是什麼,這些值只有他們是多麼準確,背景,什麼是一個很好的價值,什麼是不好的價值,什麼是最大值和最小值等

意思如果一個變量的值很高MeanDecreaseAccuracyMeanDecreaseGini這是否意味着它是重要的還是不重要的?此外,關於原始分數的任何信息也可能有用。 我想知道關於這些與它們的應用有關的數字的一切。

使用「錯誤」,「求和」或「置換」這些詞的解釋不會有幫助,那麼簡單的解釋不會涉及隨機森林如何工作的任何討論。

就像我想讓某人向我解釋如何使用收音機一樣,我不會期望解釋涉及無線電如何將無線電波轉換爲聲音。

回答

24

使用單詞「錯誤」,「求和」或「置換」 會少些有益的那麼簡單的解釋未涉及如何隨機森林工作的任何 討個說法。

如果我想讓某人向我解釋如何使用收音機,我不會 希望解釋涉及無線電如何將無線電波轉換爲聲音。

如何解釋WKRP 100.5 FM中的「意味着什麼」數字,而不進入波頻率討厭的技術細節?坦率地說,隨機森林的參數和相關性能問題很難讓你頭腦發熱,即使你理解了一些技術術語。

這是我拍的一些答案:

-mean原始重要性得分變量x的類0

-mean原始重要性得分變量x的1類

簡化來自隨機森林web page,原始重要性分數測量比特定預測變量隨機分類數據更有幫助。

-MeanDecreaseAccuracy

我想這是隻有在R module,我相信它的措施多少列入本預測模型的如何減少分類錯誤。

-MeanDecreaseGini

Gini被定義爲在描述收入社會的分配,或基於樹的分類「節點雜質」的措施時「不公平」。低基尼係數(即更高的基尼係數)意味着特定的預測變量在將數據劃分到定義的類中發揮更大的作用。描述分類樹中的數據時,根據預測變量的值在單個節點處分割數據這一事實很難描述。我不清楚這如何轉化爲更好的表現。

+2

請包含指向實際用於節點拆分的Gini定義的鏈接:http://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity – tashuhka 2014-06-10 13:36:44

20

您的直接關注:更高的值意味着變量更重要。對於你提到的所有措施都應該如此。

隨機森林給你非常複雜的模型,因此解釋重要性措施可能會非常棘手。如果你想輕鬆理解你的變量在做什麼,不要使用RF。改用線性模型或(非整體)決策樹。

你說:

使用的話 「錯誤」,「求和」或「置換」 會少些有益的解釋則簡單 解釋,即不涉及任何 討論如何隨機森林 工作。

除非你深入瞭解並瞭解隨機森林的情況,否則將會非常難以解釋上述情況。我假設你抱怨無論是手動,還是從Breiman手冊中的部分:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

找出一個變量是多麼的重要,他們寫些隨機的垃圾(「置換」的話),然後看看有多少預測準確性下降。 MeanDecreaseAccuracy和MeanDecreaseGini以這種方式工作。我不確定原始分數是多少。

5

隨機森林的可解釋性比較艱難。雖然RF是一個非常強大的分類器,但它會以民主的方式進行預測。通過這個,我的意思是通過隨機抽取一部分變量和一部分隨機數據並構建一棵樹來構建數百或數千棵樹。然後對所有未選定的數據進行預測並保存預測。它的強大之處在於它能夠很好地處理數據集的變幻莫測(即,它可以平滑隨機高/低值,偶然地塊/樣本,以4種不同方式測量相同的東西等)。然而,如果你有一些高度相關的變量,兩者都可能看起來很重要,因爲它們並不總是包含在每個模型中。

隨機森林的一種潛在方法可能是幫助減少預測因子,然後切換到常規CART或嘗試使用基於推理的樹模型的PARTY軟件包。但是,您必須謹慎處理數據挖掘問題,並對參數進行推理。