2016-09-19 185 views

回答

2

在內部,一個神經網絡對一些大小的密集向量進行操作,通常是256,512或1024個浮點數(這裏假設爲512)。但最後它需要從詞彙中預測一個詞,這個詞通常要大得多,例如40000個單詞。輸出投影是將內部表示轉換(投影)到最大線性層的最後一個線性層。因此,例如,它可以由一個512 x 40000參數矩陣和一個用於偏向量的40000參數組成。它在seq2seq代碼中保持分離的原因是某些損失函數(例如,採樣的softmax損耗)需要直接訪問最終的512個大小的向量和輸出投影矩陣。希望有所幫助!

+0

爲什麼要循環輸出投影的桶數? self.outputs [b] = [tf.matmul(output,output_projection [0])+ output_projection [1]用於在self.outputs [b中輸出]]' –