如何在大數據集中進行抽樣建模

我需要在10GB訓練數據集的頂部進行預測建模，該數據集不適合內存（8GB）。我正在考慮對大數據集進行多重抽樣，並在每個子集上進行分割以生成訓練和驗證集以創建模型。有沒有更好的方法來解決這個問題？謝謝！如何在大數據集中進行抽樣建模

2016-09-12 xyin

將數據加載到塊中，然後使用隨機批量數據的隨機梯度下降進行優化，直到塊被耗盡。引入下一個塊並繼續梯度下降。這對SGD來說是一個近乎完美的用例。

如果您的數據集有順序，您可能需要考慮隨機化塊的順序以幫助進行梯度下降。實際上，這可能沒有什麼區別（但它可以）。如果你對它爲什麼重要感興趣，可以考慮通過梯度下降數學。

2016-09-12 15:52:05

回答