2016-09-12 59 views
1

我需要在10GB訓練數據集的頂部進行預測建模,該數據集不適合內存(8GB)。我正在考慮對大數據集進行多重抽樣,並在每個子集上進行分割以生成訓練和驗證集以創建模型。有沒有更好的方法來解決這個問題?謝謝!如何在大數據集中進行抽樣建模

回答

1

將數據加載到塊中,然後使用隨機批量數據的隨機梯度下降進行優化,直到塊被耗盡。引入下一個塊並繼續梯度下降。這對SGD來說是一個近乎完美的用例。

如果您的數據集有順序,您可能需要考慮隨機化塊的順序以幫助進行梯度下降。實際上,這可能沒有什麼區別(但它可以)。如果你對它爲什麼重要感興趣,可以考慮通過梯度下降數學。

相關問題