如何解釋文本模型的損失曲線？

我一直在600k條+摘要訓練語料庫上訓練文本seq2seq w /注意模型，用於抽象概括。這可以視爲收斂嗎？如果是這樣，在不到5K步驟後會聚合嗎？注意事項：如何解釋文本模型的損失曲線？

我已經對20萬個
5K步驟的詞彙尺寸爲4的批量式訓練（直到大約收斂），意味着在大多數20K不同的樣品進行觀察。這只是整個訓練語料庫的一小部分。

或者我實際上沒有在茶葉裏看到我的狗的臉，是預期的邊際負坡？

2017-08-15 anthnyprschka

模型顯然還在學習中。順利出來看看它，但顯然在5K之後它是在6.2左右，現在是5.8左右。 – lejlot

你不會碰巧知道在銜接處running_avg_loss的基準是什麼，對吧？我使用了與textsum作者相同的超參數，但迄今爲止我的輸出是無用的。不，我正在評估這是否與我使用不同的數據集（不是Gigaword，但是NYT）有關，是否引入了一些錯誤，或者我是否太急躁，應該讓模型訓練*更長時間（或者從開始在CPU atm上訓練，儘管看起來非常慢） – anthnyprschka

好了，所以我實際上切換到訓練上的GPU（而不是CPU），並證明該模型仍然在學習。這裏是初始化一個完全新的模式後，學習曲線：

提速是大致30倍的培訓AWS p2.xlarge NVIDIA K80。

來源

2017-09-11 09:49:15 anthnyprschka

如何解釋文本模型的損失曲線？

回答

相關問題