我正在進行潛在語義分析,我試圖從2個文檔中獲得相似度。我在Python上運行我的潛在語義分析代碼,當我運行它時,我得到: Here are the singular values
[ 0.7376057 0.4596623 0.25422212]
Here are the first 3 columns of the U matrix
[[ 0.98465137 -0.172792 -0.0
我使用word2vec來表示一個小短語(3到4個字)作爲一個獨特的矢量,要麼通過添加每個單詞嵌入或通過計算字嵌入的平均值。 從我做過的實驗中總會得到相同的餘弦相似度。我懷疑它與word2vec生成的單詞向量在訓練之後是否與單位長度(歐幾里得範數)相同?或者我在代碼中有一個BUG,或者我錯過了一些東西。 下面是代碼: import numpy as np
from nltk import Punk