Caffe：如果只有一小批適合內存，我該怎麼辦？

我想訓練一個非常大的模型。因此，我只能將非常小的批量放入GPU內存。使用小批量處理的結果非常有noisy gradient estimations。
我能做些什麼來避免這個問題？Caffe：如果只有一小批適合內存，我該怎麼辦？

2016-04-10 Shai

相關：http://stats.stackexchange.com/q/201775/66467 – Shai

您可以在求解器參數中更改iter_size。 Caffe在每個隨機梯度下降步驟中通過iter_size x batch_size實例累積梯度。因此，如果由於內存有限無法使用較大的batch_size，那麼增加iter_size也可以獲得更穩定的漸變。

2016-04-10 15:58:26

如this post中所述，批量大小在理論上不是問題（隨機梯度下降的效率已經用批量大小1證明）。確保你正確地實施你的批次（樣本應該隨機挑選你的數據）。

2016-04-10 08:58:47

確實這是一個很好的理論結果，但實際上，尤其是當網絡很大並且涉及很多參數時，人們可能更喜歡使用大批量尺寸。 – Shai

你能提供一些關於你的實現的更多細節嗎？參數數量？您可以使用的最大批量大小？ –

我想學習一個經常性的模型：因此，批量大小是我可以展開的時間步數和我可以處理的獨立序列的數量之間的權衡。我包含的時間步數越多，我可以處理的序列越少，因此梯度估計中的噪音也會增加。 – Shai

回答