0
我正在訓練RNN,並在一夜之間失去了NaN的功能。我一直在閱讀這個解決方案是爲了降低學習速度。當試圖從我的(唯一)檢查站重新開始訓練並且使用較小的學習速度時,我仍然得到了NaN。這是否意味着我的檢查點無法修復?有沒有辦法恢復這一個或使用tf.train.Saver這樣一種方式,我保證模型的一個版本,在它達到一個不返回點之前?達到NaN丟失後恢復檢查點?
我正在訓練RNN,並在一夜之間失去了NaN的功能。我一直在閱讀這個解決方案是爲了降低學習速度。當試圖從我的(唯一)檢查站重新開始訓練並且使用較小的學習速度時,我仍然得到了NaN。這是否意味着我的檢查點無法修復?有沒有辦法恢復這一個或使用tf.train.Saver這樣一種方式,我保證模型的一個版本,在它達到一個不返回點之前?達到NaN丟失後恢復檢查點?
如果您的檢查點有NaN
值,那麼恢復它可能不會很多。我想你可以用別的東西代替NaN,但那不是那種原則性的。
您可能想查看是否存在沒有NaN
值的早期檢查點。 tf.train.Saver
默認最多保留5個以前的檢查點,正是這個原因排序的:
https://www.tensorflow.org/api_docs/python/tf/train/Saver
希望這有助於!
如果學習率是你的問題,我會期望看到NaN從第一個時代開始,而不是經過很多迭代。 –