我需要基於具有100個預測變量和30萬行的數據集建立隨機森林分類模型。目標變量是二進制的。計算每行的分數值很重要,這是RF算法的標準選項。 我成功構建了多達70,000行的RF模型。處理更大的數據集最終會出現內存限制錯誤消息。 我意識到可能會將大數據集分割成許多足夠小的數據集,並將它們分開處理。但有了30萬條記錄,我會有太多的子集,我寧願找到更方便的方法。大型數據集上的隨機森林模型
所以,這裏是我的問題:有沒有一種方法可以同時處理30毫米行來構建射頻模型?首先,我對R或Python解決方案感興趣。什麼是預期的時間限制?
加一個H2O,易於在R中實現。 – Minnow