2017-10-12 31 views
2

在多個出版物中描述這個問題涉及在CNN使用位置矢量的關係分類,如以下通過Zeng等人:http://www.aclweb.org/anthology/C14-1220創作卷積神經網絡的位置矢量的關係分類

我想在張量流中實現這樣一個模型。我的問題如下:

  1. 使用隨機初始化向量表示位置信息有什麼好處嗎?舉例來說,爲什麼不用一個熱門的矢量編碼來表示位置?不建議將單熱矢量與密集的單詞矢量結合起來嗎?

  2. 根據單詞向量的維度,位置向量應該具有最小維度嗎?例如,假設單詞向量維數爲500,那麼對於位置向量來說,維數10是否會太小而不能在模型中有效?是否有一系列已知的位置向量表現良好的維度?

  3. 用於編碼位置信息的隨機初始化向量之間的距離是否重要?

非常感謝您花時間研究這一點!

回答

1

關於問題1,我沒有解釋爲什麼組合熱點和密集的表示是不好的,但是憑經驗看看其他人報告的結果,似乎還是更好地學習位置的嵌入。

約阿夫德堡還注意到可以在他自己NLP Deep Learning book(第96頁):

在「傳統」的NLP設置, 距離通常是由裝倉的距離爲幾組(即,1,2編碼,3,4,5-10, 10+)並且將每個箱與單熱矢量相關聯。在神經架構中,輸入向量不是由二進制指標特徵組成的,將單個輸入 條目分配給距離特徵似乎很自然,其中該條目的數值是該距離。

但是,這種方法在實際中並未採用。相反,距離特徵的編碼類似於其他特徵類型:每個bin與一個d維向量相關聯,然後將這些距離嵌入向量作爲網絡中的常規參數訓練[dos Santos et al。,2015,2010, Nguyen 和Grishman,2015,Zeng等,2014,Zhu等,2015a]。

也許你可以通過查看引用的論文來找到更多關於嵌入更好的見解。

關於問題2,我會說只要維度足夠大,讓模型爲您想要編碼的每個位置學習不同的嵌入,就應該沒問題。所以他們在實踐中可能會很小。