以上圖片來自Distributed Representations of Sentences and Documents,論文介紹Doc2Vec。我正在使用Gensim的Word2Vec和Doc2Vec實現,這很好,但我正在尋找幾個問題的清晰度。
- 對於給定的doc2vec模型
dvm
,什麼是dvm.docvecs
?我的印象是,它是包含嵌入和段落矢量d
的所有單詞的平均或級聯向量。這是正確的,還是d? - 假設
dvm.docvecs
不d
,可以自己一個接入d?怎麼樣? - 作爲獎勵,
d
是如何計算的?本文只是說:
在我們的第矢量框架(參見圖2),每 段被映射到一個唯一的向量,表示通過在基體d和字字 柱也被映射到一個 獨特的矢量,由矩陣W中的列表示。
感謝您的任何線索!
感謝您的答覆。如果我理解你的第一句話,'docvecs'是與上圖中的'Average/Concatenate'旁邊的矢量對應的唯一文檔向量。那是對的嗎? –
實際上'model.docvecs'是一個幫助對象,它持有*所有被訓練的文檔向量。它(特別是它的'doctag_syn0'數組就像圖中的'段落矩陣')被用來獲得一個單獨的向量* D *(如圖中的橙色),與單個向量混合進行單個訓練樣例。 – gojomo
有趣。當'dm = 0',因此使用PV-DBOW算法時,'model.docvecs'等於'model.docvecs.doctag_syn0'。這是有道理的,我猜想是因爲沒有將字嵌入與段落矩陣結合在一起。謝謝您的幫助! –