2017-02-28 88 views
2

我試圖理解word2vec(單詞嵌入)體系結構。但是,我對此有疑問。關於單詞嵌入的問題(word2vec)

首先,爲什麼word2vec模型是對數線性模型?因爲它在輸出層使用了一個軟件最大值?

秒,爲什麼word2vec刪除隱藏層?僅僅因爲計算複雜性?

三,爲什麼word2vec不使用激活功能?比較NNLM(神經網絡語言模型)。

回答

2

首先,爲什麼word2vec模型是對數線性模型?因爲它在輸出層使用了一個軟件最大值?

確切地說,softmax是一個對數線性分類模型。其目的是獲得輸出值,可以認爲是後驗概率分佈

第二,爲什麼word2vec刪除隱藏層?僅僅因爲 計算複雜? 三,爲什麼word2ved不使用激活功能?比較 NNLM(神經網絡語言模型)。

我認爲你的第二個和第三個問題是關聯的,因爲額外的隱藏層和激活函數會使模型比必要的更加複雜。請注意,儘管未明確闡述激活,但我們可以將其視爲線性分類函數。看起來,word2vec模型試圖建模的依賴關係可以通過輸入詞之間的線性關係來實現。

添加非線性激活函數允許神經網絡映射更復雜的函數,這又可能導致將輸入擬合到更復雜的東西上,從而不會保留word2vec尋求的依賴關係。

+0

thx: - >!我非常瞭解你想要的答案。 –