2016-11-14 198 views
0

我想運行一個基於U-net架構的圖像分割代碼。在實驗過程中,我發現Adam優化器比動量優化器運行速度慢得多。我不確定這兩個優化器之間是否有共同的觀察結果?還是應該是一個數據依賴的觀察?adam優化器和動量優化器

回答

0

使用Adam的優化比使用Momentum的優化運行緩慢,因爲前者需要累積每個參數的第一個和第二個時刻的指數移動平均值,因爲它是自適應學習率算法。 而後者不需要跟蹤過去的漸變,也不需要爲每個參數應用具有不同值的更新規則。

因此,您的觀察結果是正確的,但它不是數據相關的,它是優化算法本身需要做額外的計算,因此執行時間(每個訓練步驟)都較慢。

優點是使用自適應學習速率算法,即使單個步驟較慢,您的速度也會更快。

0

它可能取決於你的框架;例如,MxNet的這個問題:https://github.com/dmlc/mxnet/issues/1516。根據我的經驗,Adam傾向於與更少的時代交匯,儘管我意識到這與優化器運行速度並不相同。