創作卷積神經網絡的位置矢量的關係分類

在多個出版物中描述這個問題涉及在CNN使用位置矢量的關係分類，如以下通過Zeng等人：http://www.aclweb.org/anthology/C14-1220 創作卷積神經網絡的位置矢量的關係分類

我想在張量流中實現這樣一個模型。我的問題如下：

使用隨機初始化向量表示位置信息有什麼好處嗎？舉例來說，爲什麼不用一個熱門的矢量編碼來表示位置？不建議將單熱矢量與密集的單詞矢量結合起來嗎？
根據單詞向量的維度，位置向量應該具有最小維度嗎？例如，假設單詞向量維數爲500，那麼對於位置向量來說，維數10是否會太小而不能在模型中有效？是否有一系列已知的位置向量表現良好的維度？
用於編碼位置信息的隨機初始化向量之間的距離是否重要？

非常感謝您花時間研究這一點！

2017-10-12 ltt

關於問題1，我沒有解釋爲什麼組合熱點和密集的表示是不好的，但是憑經驗看看其他人報告的結果，似乎還是更好地學習位置的嵌入。

約阿夫德堡還注意到可以在他自己NLP Deep Learning book（第96頁）：

在「傳統」的NLP設置，距離通常是由裝倉的距離爲幾組（即，1，2編碼，3，4，5-10， 10+）並且將每個箱與單熱矢量相關聯。在神經架構中，輸入向量不是由二進制指標特徵組成的，將單個輸入條目分配給距離特徵似乎很自然，其中該條目的數值是該距離。

但是，這種方法在實際中並未採用。相反，距離特徵的編碼類似於其他特徵類型：每個bin與一個d維向量相關聯，然後將這些距離嵌入向量作爲網絡中的常規參數訓練[dos Santos et al。，2015,2010， Nguyen 和Grishman，2015，Zeng等，2014，Zhu等，2015a]。

也許你可以通過查看引用的論文來找到更多關於嵌入更好的見解。

關於問題2，我會說只要維度足夠大，讓模型爲您想要編碼的每個位置學習不同的嵌入，就應該沒問題。所以他們在實踐中可能會很小。

來源

2018-01-25 14:25:20 Tobias

創作卷積神經網絡的位置矢量的關係分類

回答

相關問題