火花MLLib的Word2Vec餘弦相似度大於1

在火花實施word2vec的，當迭代或數據分區的數目是大於一，由於某種原因，餘弦相似度大於1

據我所知，餘弦相似度應該總是大約-1 < cos < 1.有人知道爲什麼嗎？

2015-10-27 Jason Xie

在word2vecfindSynonyms方法，它不計算餘弦相似度v1・vi/|v1| |vi|，代替它計算v1・vi/|vi|，其中v1是查詢字的矢量和vi是候選字的矢量。這就是爲什麼數值有時會超過1的原因。只是爲了找到更接近的單詞，沒有必要除以|v1|，因爲它是恆定的。

2015-11-17 18:33:33

回答