2016-08-02 97 views
0

我目前正在複製http://karpathy.github.io/2015/05/21/rnn-effectiveness/中描述的char-RNN的代碼。有些代碼已經在tensorflow中實現了,我所指的代碼是https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/train.py我對學習速率衰減存在問題。在代碼中,優化器被定義爲AdamOptimizer。當我瀏覽代碼時,我看到一行如下:LSTM學習速率衰減

for e in range(args.num_epochs): 
     sess.run(tf.assign(model.lr, args.learning_rate * (args.decay_rate ** e))) 

它調整學習率的衰減常數。 我的問題是:是不是亞當優化使我們能夠控制學習率?爲什麼我們仍然在這裏使用關於學習率的衰減率?

回答

0

我認爲你的意思是RMSprop而不是Adam,你鏈接的兩個代碼都使用RMSprop。 RMSprop只縮放漸變以不會有太大或太小的規範。所以,當我們在幾個時代後不得不放慢訓練速度時,減少學習速度很重要。