2012-03-25 44 views
12

如何使用具有觀察權重的R randomForest包?我知道這個包裏沒有這個選項。我有2個問題:在randomForest包中包含觀察權重

  1. 使用randomForest包有沒有解決這個問題的方法?這時我畫從數據樣本權重的概率,所以我至少可以模擬它:

    m = dim(data)[1] 
    sample(data, m, replace=TRUE, prob=weights) 
    

    它的工作原理有其他(更好的)解決方案?

  2. 是否有任何替代randomForest包。我發現了party包(cforest),但是在內存管理方面它很糟糕(或者我無法像使用randomForest包那樣使用它)。我有大約20萬觀察值和30-40個變量。

編輯:

對不起,不澄清細節。我正在使用randomForest包進行迴歸問題(不分類)。這是一個時間序列,每個觀察都有其重要性。稍後,該權重用於確定跨測試觀察的模型性能。 y變量是連續的。

+0

可能會發現http://stats.stackexchange.com – 2014-03-21 17:45:14

回答

1

randomForest確實有一個「classwt」參數,它應該允許您考慮差分採樣概率或者差分成本。無可否認,它被忽略迴歸也許你應該解釋爲什麼你需要使用加權和你正在使用什麼樣的y變量。

1

我一直在尋找與隨機森林中的Pawel相同的選項。我想到R中的package「ranger」將它包含在「ranger」函數中(通過參數「case.weights」)。

該軟件包於2016年6月發佈,因此非常年輕。

最佳,

+0

我只是想出了randomForestSRC也包括在其發佈2.2.0一個case.wt參數更多的利益。 請參閱'rfsrc.news()'使用最新版本的randomForestSRC! 此解決方案可能更安全,因爲randomForestSRC是一個廣泛使用的軟件包! 最好的, – Ooona 2017-01-30 23:39:39

相關問題