2017-06-13 81 views
0

我試圖用循環神經網絡來預測單詞。 我正在訓練網絡,將獨立預訓練的word2vec字作爲輸入。rnn使用word2vec進行單詞預測

我想知道是否可以使用目標詞的word2vec來計算錯誤代價。 它似乎不工作,我從來沒有見過這樣的例子或論文。 是否可以使用word2vec作爲計算錯誤成本的目標值? 如果是這樣,我應該使用什麼樣的成本函數? 如果不是,請以數學方式解釋原因。

我應該如何設置輸入和目標? 現在我使用的架構如下圖所示:

input : word1, word2, word3, target : word4 
input : word1, word2, word3, word4, target : word5 

也許我可以像使用其他選項:

input : word1, word2 target : word2, word3 
input : word1, word2, word3, target : word2, word3, word4 

哪一個更好?還是有另一種選擇?

如果有任何參考讓我知道。

+0

感謝您編輯我的問題。 應該更關心標籤嗎?標記。 –

回答

0

預測通常是通過輸出softmax層進行的,該輸出給出詞彙表中所有單詞的概率。

然而最近的一篇文章表明,與所述輸出字分類捆紮輸入字矢量和訓練他們端至端。這大大減少了參數的數量。 https://arxiv.org/abs/1611.01462

至於架構,至少訓練以來的第一個喪失有關,也可用於訓練的第二個和第三個單詞的信息,我寧願第二個選項。

+0

我看報紙,並認爲這可能是提高我的模型的方式之一,但它不是我所期待的。 –

+0

我想計算網絡輸出(下一個單詞向量的預測)和目標單詞的單詞向量之間的損失。 但在論文中,他們轉換網絡的輸出轉換成分佈在所有的話,並得到目標與目標詞和嵌入層分佈。然後用cce計算損失 - 就像他們自己的損失函數一樣。 –