2015-12-30 103 views
0

我需要基於具有100個預測變量和30萬行的數據集建立隨機森林分類模型。目標變量是二進制的。計算每行的分數值很重要,這是RF算法的標準選項。 我成功構建了多達70,000行的RF模型。處理更大的數據集最終會出現內存限制錯誤消息。 我意識到可能會將大數據集分割成許多足夠小的數據集,並將它們分開處理。但有了30萬條記錄,我會有太多的子集,我寧願找到更方便的方法。大型數據集上的隨機森林模型

所以,這裏是我的問題:有沒有一種方法可以同時處理30毫米行來構建射頻模型?首先,我對R或Python解決方案感興趣。什麼是預期的時間限制?

回答

1

除了剛剛找到一臺具有大量的RAM或旋轉了一個AWS實例了一下,有擬合模型,您還可以使用那些隨機分佈的森林,因爲它不是一個困難的算法並行化工具。我已經使用了H2O.ai,它是免費的,並有Python和R鉤子,但我知道還有其他選項。

+0

加一個H2O,易於在R中實現。 – Minnow

0

我會考慮在構建模型時對輸入數據集進行採樣,直到模型收斂。通常,並不是所有的數據都需要訓練模型。模型訓練完成後,您可以將其應用於任意數量的行以生成分數。

在R包裝randomForest中,採樣由參數sampsize控制。