我有一組用戶和他們的內容(每個包含用戶的用戶鳴叫1個文件)。我打算爲每個用戶使用一個大小爲N的分佈式向量表示。一種方法是採取在Twitter上的數據預先訓練的wordvectors並取它們的平均值得到一個用戶的分佈矢量。我打算使用doc2vec更好results.But我不太清楚,如果我理解Distributed Representations of Sentences and Documents給出的DM模型。如何獲取新段落的段落向量?
據我所知,我們正在分配每個段落一個載體,同時預測下一個字,我們正在使用,然後backpropagating錯誤更新款向量以及詞彙向量。如何使用它來預測新段落的向量?
編輯:用於gensim計算新文件第矢量任何玩具代碼,將不勝感激。
對於使用doc2vec模型進行培訓和預測的問題,有一個很好的解釋:https://www.quora.com/How-does-doc2vec-represent-feature-vector-of-a-document- Cananone -explain-數學知識 - 的 - 過程 - 是 - 做 –