不使用tf.train.AdamOptmizer的理由？

我讀過this article，它看起來像是給了足夠的內存，你應該總是在其他可能的優化算法中使用Adam（adadelta，rmsprop，vanilla sgd等）。有沒有任何例子，無論是玩具還是現實世界，Adam都會比其他算法做得更差？我認爲，對於大多數密集投入而言，主要是凸面的損失函數，您可能會加快與vanilla SGD的融合，但您仍然需要調整您的學習時間表和需要一些時間的東西。不使用tf.train.AdamOptmizer的理由？

來源

2016-05-24 George

我見過人們比'AdamOptimizer'更喜歡動力，因爲它對稀疏梯度效果更好 –

我傾向於使用vanilla sgd，只要我仍然在獲得一般的圖形佈局的權利，因爲ADAM和AdaGrad帶來了很多矩陣 - 開銷與他們，使調試真的很難。但是一旦你有了你的模型並且想要進行規模訓練，我想ADAM，AdaGrad和rmsprop就是選擇。我個人的經驗是，在seq2seq任務上工作AdaGrad非常高效和穩定。

來源

2016-05-24 19:15:06 friesel

沒有最佳優化方法。看到沒有免費的午餐定理。

來源

2018-02-01 23:04:24

你能解釋一下你的推理，給出更多的上下文，並且如果可能的話給一個你提到的定理的鏈接？ – mjuarez

不使用tf.train.AdamOptmizer的理由？

回答

相關問題