1
在word2vec paper中,它們使用線性激活函數。我的理由可能是他們提供了足夠的訓練數據來學習單詞嵌入,這樣非線性激活函數就沒有必要了,我正確嗎?Word中的線性激活函數向量
此外,如果我們在隱藏層中使用非線性激活函數,那麼我認爲結果應該更好。那麼爲什麼谷歌使用線性激活功能的情況下,單詞向量?
在word2vec paper中,它們使用線性激活函數。我的理由可能是他們提供了足夠的訓練數據來學習單詞嵌入,這樣非線性激活函數就沒有必要了,我正確嗎?Word中的線性激活函數向量
此外,如果我們在隱藏層中使用非線性激活函數,那麼我認爲結果應該更好。那麼爲什麼谷歌使用線性激活功能的情況下,單詞向量?
在我看來,你的困惑大部分來自於認爲他們的模型完全是線性。事實並非如此,因爲最終總會有一個softmax層。線性是指在此之前的一切,這與NNLM不同。
請記住,所有字表示方法的主要思想是預測鄰近字,即由中心詞最大化上下文的總條件概率(反之亦然):
所以目標函數必然以最終的softmax層(或類似的)結束。我鼓勵你閱讀this post瞭解更多細節,它很短,寫得很好。
你說得對,神經網絡越是非線性,其獲得的靈活性就越高,因此越接近目標分佈。在這種情況下,他們認爲額外的靈活性並沒有得到回報:最終,他們獲得了非常好的結果,速度更快,從而可以將這種方法擴展到龐大的語料庫,從而獲得更好的結果。注意:線性迴歸根本不需要訓練以找到解答,但有一個接近的公式(儘管存在大型矩陣存在技術困難)。
提供文獻的參考,以加快響應速度。 –
在這裏他們提到關於那裏模型的論文https://arxiv.org/pdf/1301.3781.pdf的鏈接。 – Azad