2015-09-21 96 views
2

我使用Rborist構建R中的隨機森林。但是,在使用訓練集構建模型之後,在使用predictpredict.Rborist)函數時,R將崩潰並顯示消息「R for Windows GUI前端已停止工作」。R大型數據集隨機森林(Rborist)R

我正在使用一臺帶有8核CPU,32 GB RAM的機器,我的數據集有150k個記錄以及2k個變量。使用整個數據集構建隨機森林需要約2小時的時間,並行處理啓用。

雖然這可能是一個內存錯誤,但CPU或內存使用狀態並不表示這一點。請幫忙。

+0

您可以嘗試減少訓練數據。您的總數據究竟有多大(測試+培訓+驗證集)? – Gaurav

+0

最近我嘗試了同樣的過程,只有150k記錄和12個變量,並且模型已經構建,但是在預測時,R再次停止工作。 –

+1

那麼,如果您的數據的大小爲'n',則可以將您的訓練數據保存在sqrt(n)中,並且仍然可以從您的模型中統計數據。理想情況下,模型構建是痛苦的脖子......預測你總是可以將數據分割成更小的數據集...... – Gaurav

回答

2

Indranil,

這可能不是內存問題。 predict()方法有一個錯誤,其中行計數被隱式假定爲小於或等於原始的訓練行數。 Github上的版本修復了這個問題,看起來很穩定。一個新的CRAN版本過期了,並等待幾個更改。