2017-03-16 19 views
3

我有點新手而不是母語英語,所以在理解​​的word2vecdoc2vec時有點麻煩。Gensim:word2vec和doc2vec有什麼區別?

我想都給了我一些與查詢詞我請求最相似的單詞,most_similar()(訓練後)。

如何判斷我需要使用哪種情況word2vecdoc2vec

有人可以解釋一下短字的區別嗎?

謝謝。

+1

明智的建模,它沒有什麼不同。除了一個附加的輸入單元,它包含輸入序列從中選擇的段落,文檔等信息。閱讀提議的實際文件:https://cs.stanford.edu/~quocle/paragraph_vector.pdf – user3639557

回答

5

在word2vec中,您將訓練以查找單詞向量,然後在單詞之間運行相似性查詢。在doc2vec中,你標記你的文本,你也可以得到標記向量。例如,您擁有來自不同作者的不同文檔,並將作者用作文檔上的標籤。然後,在doc2vec培訓之後,您可以使用相同的矢量算法在作者標籤上運行相似性查詢:即誰是與AUTHOR_X最相似的作者?如果兩位作者通常使用相同的單詞,則他們的向量將更接近。 AUTHOR_X不是一個真正的單詞,它只是您確定的某個語料庫的一部分。所以你不需要擁有它或手動將其插入到文本中。 Gensim允許您使用或不使用單詞向量來訓練doc2vec(即,如果您只關心彼此之間的標記相似性)。

這是關於word2vec基礎知識的good presentation以及他們如何以創新的方式使用doc2vec進行產品推薦(related blog post)。

如果你告訴我你想解決什麼問題,可能是我可以建議哪種方法更合適。

+0

用於文本分類,即情感分類,使用word2vec或Doc2Vec有什麼不同?在這兩種情況下,它都將被輸入。 – user697911

+0

@ user697911您可以在這裏看到Doc2Vec白皮書: https://cs.stanford.edu/~quocle/paragraph_vector.pdf 在實驗部分,他們討論了情感分析。由於您將文檔分類爲正面或負面,Doc2Vec是首選方法,因爲它也可以將文檔矢量化,而不僅僅是文字。 – vasia