2015-05-07 47 views
2

我最近才知道這個工具叫做word2vec。對於我目前的工作,我需要找出與給定用戶相似的用戶。單個用戶擁有與其相關的實體,如年齡,資格,畢業/組織結構,已知語言和特定標籤列表。如果我們將這些實體/列中的每一個都視爲用戶的單詞的隨機塊,我們是否可以相應地計算該用戶的矢量值並使用這些值來推斷用戶之間的相似性?維基培訓向量能幫助我們獲得有意義的結果嗎?還有其他方法可以做到嗎?使用word2vec來計算用戶之間的相似度

回答

4

你需要的是一個簡單的無監督(或半監督)聚類算法。 word2vec及其預先訓練好的向量可能不是很有用,因爲機構等不太可能在其中。另外,似乎用戶的「方面」數量很少,因此您可以簡單地在矢量表示上使用聚類算法,其中矢量空間的每個維度都是這些方面之一(年齡,資格,組織等)。

如果您希望用戶的相似性反映這些方面的相似性(與精確相等)相反,像word2vec這樣的連續空間模型可能會有所幫助。

例如,如果您想將「Python專家」的資格認定爲「腳本專家」的近似值,那麼請轉到word2vec。但是,如果您在有限的預定義數量的方面中查找精確匹配,請使用簡單的聚類算法。

P.S.更詳細的Q &有關此主題的答案應在Cross Validated之上。

相關問題