2013-02-15 52 views
1

我有一個高度不平衡的數據,並希望通過上採樣少數類來提高準確性(少數類是感興趣的對象)。R - randomForest中的上採樣

我嘗試使用「randomForest」函數中的「sampsize」選項 - 但它只允許下采樣。我讀過某處,可以使用「classwt」選項 - 但我不確定如何使用它。

任何人都可以通過向上採樣少數類(使用「randomForest」庫或其他類似的庫)來提出運行R中隨機森林的方法。

謝謝。

+0

將http://stackoverflow.com/questions/8704681/random-forest-with-classes-that-are-very-unbalanced讓你更進一步? – xhudik 2013-02-15 10:30:36

+0

@xhudik:我在發佈之前已經瀏覽了該鏈接。大部分建議都是針對大多數課程,並使用縮小的數據大小。我想保持數據集的大小相同,但因素(平均配置50:50) – amvo 2013-02-15 14:33:36

+0

hmm,因此沒有建議從我身邊遺憾... – xhudik 2013-02-15 14:59:03

回答

0

最簡單的方法是隻複製少數類的數據就足夠了,但是你丟失了OOB估計。

你想要做的直接做的似乎並沒有實現,另見this question