2016-05-24 45 views
0

我讀過this article,它看起來像是給了足夠的內存,你應該總是在其他可能的優化算法中使用Adam(adadelta,rmsprop,vanilla sgd等)。有沒有任何例子,無論是玩具還是現實世界,Adam都會比其他算法做得更差?我認爲,對於大多數密集投入而言,主要是凸面的損失函數,您可能會加快與vanilla SGD的融合,但您仍然需要調整您的學習時間表和需要一些時間的東西。不使用tf.train.AdamOptmizer的理由?

+0

我見過人們比'AdamOptimizer'更喜歡動力,因爲它對稀疏梯度效果更好 –

回答

0

我傾向於使用vanilla sgd,只要我仍然在獲得一般的圖形佈局的權利,因爲ADAM和AdaGrad帶來了很多矩陣 - 開銷與他們,使調試真的很難。但是一旦你有了你的模型並且想要進行規模訓練,我想ADAM,AdaGrad和rmsprop就是選擇。我個人的經驗是,在seq2seq任務上工作AdaGrad非常高效和穩定。

0

沒有最佳優化方法。看到沒有免費的午餐定理。

+0

你能解釋一下你的推理,給出更多的上下文,並且如果可能的話給一個你提到的定理的鏈接? – mjuarez

相關問題