2013-07-09 33 views
5

是否可以將RandomForests應用於非常小的數據集? 我有一個數據集有很多變量,但每個只有25個觀察值。隨機森林產生合理的結果與低OOB錯誤(10-25%)。 有沒有關於使用最少觀測數量的經驗法則? 事實上,其中一個響應變量是不平衡的,如果我要對它進行二次抽樣,那麼我將得到更少的觀察值。 在此先感謝執行隨機森林時的最小觀察次數

+0

訓練集包含多少個特徵? – jonnydedwards

+0

它包含33個預測變量和4個響應變量(我應該執行4個RF) – Oritteropus

+1

檢查[this](http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size-爲多元迴歸)爲啓發式。 – jonnydedwards

回答

3

絕對RF可用於這些類型的數據集(即p> n)。實際上,他們在像字段數大於20000的基因組學領域使用RF,並且只有非常少的行數 - 例如10-12。整個問題是弄清楚20k個變量中的哪一個會構成一個簡潔的標記(即特徵選擇是整個問題)。

我沒有關於最小尺寸的任何ROT,除非您的模型在阻止的樣本上不能正常工作(或者在您的情況下,Hold-One-Back交叉驗證可能會奏效),那麼您應該嘗試別的東西。

希望這有助於