2017-08-15 35 views
0

我一直在600k條+摘要訓練語料庫上訓練文本seq2seq w /注意模型,用於抽象概括。這可以視爲收斂嗎?如果是這樣,在不到5K步驟後會聚合嗎?注意事項:如何解釋文本模型的損失曲線?

  • 我已經對20萬個
  • 5K步驟的詞彙尺寸爲4的批量式訓練(直到大約收斂),意味着在大多數20K不同的樣品進行觀察。這只是整個訓練語料庫的一小部分。

或者我實際上沒有在茶葉裏看到我的狗的臉,是預期的邊際負坡?

Loss over steps

+1

模型顯然還在學習中。順利出來看看它,但顯然在5K之後它是在6.2左右,現在是5.8左右。 – lejlot

+0

你不會碰巧知道在銜接處running_avg_loss的基準是什麼,對吧?我使用了與textsum作者相同的超參數,但迄今爲止我的輸出是無用的。不,我正在評估這是否與我使用不同的數據集(不是Gigaword,但是NYT)有關,是否引入了一些錯誤,或者我是否太急躁,應該讓模型訓練*更長時間(或者從 開始在CPU atm上訓練,儘管看起來非常慢) – anthnyprschka

回答

0

好了,所以我實際上切換到訓練上的GPU(而不是CPU),並證明該模型仍然在學習。這裏是初始化一個完全新的模式後,學習曲線: enter image description here

提速是大致30倍的培訓AWS p2.xlarge NVIDIA K80。