2013-02-05 33 views
4

R包randomForest報告森林中每個的均方誤差。然而,我需要對數據中的每個情況下的置信度度量。由於randomForest通過對單棵樹的預測進行平均來計算個例預測,我猜也應該可以計算個案標準誤差並因此計算置信區間。這可以使用輸出randomForest對象來完成(如果是這樣的話:怎麼做?)或者我必須挖掘源代碼?randomRorest in R:是否有計算病例置信區間的可能性?

回答

6

無需挖掘源代碼。您只需要閱讀文檔。 ?predict.randomForest指出,它的一個參數叫做predict.all

predict.all如果所有樹木的預測保持?

因此,將其設置爲TRUE將針對每種情況對每棵樹進行預測,然後可以使用該樹對每種情況計算標準誤差。

我最近被Stefan Wager,Trevor Hastie和Brad Efron發現了this論文,該論文更嚴格地研究隨機森林(和其他袋裝預測因子)產生的預測標準誤差的想法。

+0

對不起,在這裏問。但是可以肯定的是,這裏的RandomForest類型是預測,否則我們不能說置信區間,是不是? – agstudy

+0

@agstudy不知道我關注。我會很容易地認爲,預測區間的_statistical_含義在這裏可能是有問題的,但在某些層面上,預測只是平均值,因此以天真的方式計算每個區間的「置信區間」實際上只相當於計算CI一個意思。產生的間隔是否意味着任何有用的顯然是一個單獨的問題... – joran

+0

謝謝。我的問題是因爲我們可以randomForest執行分類或迴歸(object $ type ='predictions')。那麼在分類的情況下計算CI,有沒有統計意義? – agstudy

相關問題