2017-06-18 18 views

回答

0

根據我的理解,對於要翻譯的每個單詞,輸入包含單詞本身及其在輸入鏈中的位置(比如0,1,... m)。

現在,編碼這樣的數據只需要一個pos值爲0(單元爲0)的單元格就不會有很好的表現(出於同樣的原因,我們使用一個熱點向量來編碼單詞)。所以,基本上,這個位置將被編碼在許多輸入單元中,具有單熱表示(或者類似的,我可能想到正在使用的位置的二進制表示)。

然後,將使用一個嵌入層(就像它用於字編碼一樣)將這個稀疏和離散表示轉換爲一個連續的表示。

在論文中使用的表示選擇具有相同維度的詞嵌入和位置嵌入,並簡單地總結這兩者。

0

從我認爲的位置嵌入仍然是構建一個熱點向量的低維表示的過程。而這次單向矢量的維度就是句子的長度。 BTY,我認爲是否按位置順序放置'一熱'確實沒有關係。它只是給模型一種'定位意識'的感覺。