大型數據集上的隨機森林模型

我需要基於具有100個預測變量和30萬行的數據集建立隨機森林分類模型。目標變量是二進制的。計算每行的分數值很重要，這是RF算法的標準選項。我成功構建了多達70,000行的RF模型。處理更大的數據集最終會出現內存限制錯誤消息。我意識到可能會將大數據集分割成許多足夠小的數據集，並將它們分開處理。但有了30萬條記錄，我會有太多的子集，我寧願找到更方便的方法。大型數據集上的隨機森林模型

所以，這裏是我的問題：有沒有一種方法可以同時處理30毫米行來構建射頻模型？首先，我對R或Python解決方案感興趣。什麼是預期的時間限制？

來源

2015-12-30 Vladimir

除了剛剛找到一臺具有大量的RAM或旋轉了一個AWS實例了一下，有擬合模型，您還可以使用那些隨機分佈的森林，因爲它不是一個困難的算法並行化工具。我已經使用了H2O.ai，它是免費的，並有Python和R鉤子，但我知道還有其他選項。

來源

2015-12-30 16:38:39

加一個H2O，易於在R中實現。 – Minnow

我會考慮在構建模型時對輸入數據集進行採樣，直到模型收斂。通常，並不是所有的數據都需要訓練模型。模型訓練完成後，您可以將其應用於任意數量的行以生成分數。

在R包裝randomForest中，採樣由參數sampsize控制。

來源

2015-12-30 16:46:44 yrjo

大型數據集上的隨機森林模型

回答

相關問題