4
http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec火花MLLib的Word2Vec餘弦相似度大於1
在火花實施word2vec的,當迭代或數據分區的數目是大於一,由於某種原因,餘弦相似度大於1
據我所知,餘弦相似度應該總是大約-1 < cos < 1.有人知道爲什麼嗎?
http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec火花MLLib的Word2Vec餘弦相似度大於1
在火花實施word2vec的,當迭代或數據分區的數目是大於一,由於某種原因,餘弦相似度大於1
據我所知,餘弦相似度應該總是大約-1 < cos < 1.有人知道爲什麼嗎?
在word2vec
findSynonyms
方法,它不計算餘弦相似度v1・vi/|v1| |vi|
,代替它計算v1・vi/|vi|
,其中v1
是查詢字的矢量和vi
是候選字的矢量。 這就是爲什麼數值有時會超過1的原因。 只是爲了找到更接近的單詞,沒有必要除以|v1|
,因爲它是恆定的。