執行隨機森林時的最小觀察次數

是否可以將RandomForests應用於非常小的數據集？我有一個數據集有很多變量，但每個只有25個觀察值。隨機森林產生合理的結果與低OOB錯誤（10-25％）。有沒有關於使用最少觀測數量的經驗法則？事實上，其中一個響應變量是不平衡的，如果我要對它進行二次抽樣，那麼我將得到更少的觀察值。在此先感謝執行隨機森林時的最小觀察次數

來源

2013-07-09 Oritteropus

訓練集包含多少個特徵？ – jonnydedwards

它包含33個預測變量和4個響應變量（我應該執行4個RF） – Oritteropus

檢查[this]（http://stats.stackexchange.com/questions/10079/rules-of-thumb-for-minimum-sample-size-爲多元迴歸）爲啓發式。 – jonnydedwards

絕對RF可用於這些類型的數據集（即p> n）。實際上，他們在像字段數大於20000的基因組學領域使用RF，並且只有非常少的行數 - 例如10-12。整個問題是弄清楚20k個變量中的哪一個會構成一個簡潔的標記（即特徵選擇是整個問題）。

我沒有關於最小尺寸的任何ROT，除非您的模型在阻止的樣本上不能正常工作（或者在您的情況下，Hold-One-Back交叉驗證可能會奏效），那麼您應該嘗試別的東西。

希望這有助於

來源

2013-08-30 16:07:49 Wake2Sleep

執行隨機森林時的最小觀察次數

回答

相關問題