我想在R(1M +行乘6列)中使用大數據集來訓練隨機森林(使用randomForest
包)以實現迴歸。不幸的是,當試圖一次完成所有事情時,我會得到一個Error in matrix(0, n, n) : too many elements specified
錯誤,並且在運行數據子集時不能分配足夠的內存種類 - 可能低至10,000個觀察值。大數據集上的隨機森林
看到沒有機會我可以在我的機器上添加更多內存,並且隨機森林非常適合我嘗試建模的過程類型,我非常希望能夠完成這項工作。
任何建議或解決方法的想法,非常感謝。
建議使用'proximity = FALSE'作爲[joran](http://stackoverflow.com/users/324364/joran)並告訴我們它是否有效。 – smci 2012-10-29 07:03:14
圍繞你的問題的一個相對簡單的方法是將子集輸入矩陣。所有這些數據可能不會給你一個比10K×10K的子集更好的模型。 – 2015-01-15 10:31:41
你看過圖書館(h2o)嗎?這對於非常大的問題運行正常,請參閱http://www.r-bloggers.com/benchmarking-random-forest-implementations/ – 2015-08-20 18:50:37