我使用Doc2Vec標籤作爲我的文檔的唯一標識符,每個文檔都有不同的標籤並且沒有語義含義。我使用標籤來查找特定的文檔,以便我可以計算它們之間的相似性。Doc2Vec是否學習標籤的表示?
標籤是否會影響我模型的結果?
在這tutorial他們談論參數train_lbls=false
,這個設置爲false,沒有學習標籤(標籤)的表示。
該教程有些過時,我猜這個參數不再存在,Doc2Vec如何處理標籤?
我使用Doc2Vec標籤作爲我的文檔的唯一標識符,每個文檔都有不同的標籤並且沒有語義含義。我使用標籤來查找特定的文檔,以便我可以計算它們之間的相似性。Doc2Vec是否學習標籤的表示?
標籤是否會影響我模型的結果?
在這tutorial他們談論參數train_lbls=false
,這個設置爲false,沒有學習標籤(標籤)的表示。
該教程有些過時,我猜這個參數不再存在,Doc2Vec如何處理標籤?
對於gensim的Doc2Vec,您的文本示例必須是類似於示例TaggedDocument
類的對象:具有words
和tags
屬性。 tags
屬性應該是一個'標籤'列表,它用作從相應的文本中學習的文檔向量的關鍵字。
在經典/原始案例中,每個文檔都有一個標籤 - 實質上是該文檔的唯一標識。 (標籤可以是字符串,但對於非常大的語料庫,如果您使用的標籤是純Python標籤,從0開始,沒有跳過的值,Doc2Vec將使用較少的內存。)
標籤用於查找 - 訓練完成後學習的矢量。如果使用單標籤'mars'
訓練中有一個文件,你會查找所學習的載體:
model.docvecs['mars']
如果你是做一個model.docvecs.most_similar['mars']
電話,結果將通過他們的標籤鍵來報道,因爲好。
的標籤只是鍵進入文檔矢量集合 - 他們沒有任何語義,即使一個字符串從文本字令牌重複的,有這個標記鍵,之間沒有必然的關係字。也就是說,如果你有一個單一ID標籤爲'mars'的文檔,通過該鍵(model.docvecs['mars']
)訪問的學習文檔向量與任何學習到的使用相同字符串訪問的單詞向量之間沒有本質的關係鍵(model.wv['mars']
) - 它們來自不同的載體集合。