LSTM學習速率衰減

我目前正在複製http://karpathy.github.io/2015/05/21/rnn-effectiveness/中描述的char-RNN的代碼。有些代碼已經在tensorflow中實現了，我所指的代碼是https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/train.py我對學習速率衰減存在問題。在代碼中，優化器被定義爲AdamOptimizer。當我瀏覽代碼時，我看到一行如下：LSTM學習速率衰減

for e in range(args.num_epochs): 
     sess.run(tf.assign(model.lr, args.learning_rate * (args.decay_rate ** e)))

它調整學習率的衰減常數。我的問題是：是不是亞當優化使我們能夠控制學習率？爲什麼我們仍然在這裏使用關於學習率的衰減率？

2016-08-02 lina

我認爲你的意思是RMSprop而不是Adam，你鏈接的兩個代碼都使用RMSprop。 RMSprop只縮放漸變以不會有太大或太小的規範。所以，當我們在幾個時代後不得不放慢訓練速度時，減少學習速度很重要。

2016-08-05 15:00:15 Priyatham

回答