在seq2seq模型中,應用填充使桶中的所有序列具有相同的長度。而除此之外,它看起來像沒有特殊的處理應用到補白:Tensorflow序列2序列模型填充
的編碼器編碼的墊襯以及 基本解碼器的W/O注意使用一次編碼編碼的墊襯 與關注的解碼器解碼也會出現填充輸入的隱藏狀態 如果可以澄清,這將非常有幫助:是的,基本上填充只是一個特殊的ID /嵌入,而當前的seq2seq實現將它們視爲與其他嵌入類似?並且不需要特殊的機制來忽略這些填充,例如當編碼包含填充的序列時;或者使用基於注意力的解碼器解碼包含填充的序列?所以在填充之後,對填充沒有什麼特別之處,我們可以假裝填充只是另一種嵌入(除了使用target_weights做加權x-entropy之外)?
如果以上情況屬實,那麼當測試訓練好的模型時,是否需要填充(因爲在測試時間,每個句子單獨解碼而不是批量解碼)? ---從代碼看起來,在測試時間,輸入語句仍然是第一個,然後填充?