使用Python計算餘弦相似度

我已經編寫了以下代碼來計算大量預處理文檔（停用詞去除，詞幹和詞頻 - 逆文檔頻率）之間的餘弦相似度。使用Python計算餘弦相似度

print(X.shape) 
similarity = [] 
for each in X: 
    similarity.append(cosine_similarity(X[i:1], X)) 
    print(cosine_similarity(X[i:1], X)) 
    i = i+1

然而，當我運行它，我收到此：

(2235, 7791) 
[[ 1.   0.01490594 0.11752643 ..., 0.00941571 0.03652551 
    0.]] 
Traceback (most recent call last): 
    File "...", line 83, in <module> 
    similarity.append(cosine_similarity(X[i:1], X)) 
    File "/Users/.../anaconda/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 881, in cosine_similarity 
    X, Y = check_pairwise_arrays(X, Y) 
    File "/Users/.../anaconda/lib/python3.5/site-packages/sklearn/metrics/pairwise.py", line 96, in check_pairwise_arrays 
    X = check_array(X, accept_sparse='csr', dtype=dtype) 
    File "/Users/.../anaconda/lib/python3.5/site-packages/sklearn/utils/validation.py", line 407, in check_array 
    context)) 
ValueError: Found array with 0 sample(s) (shape=(0, 7791)) while a minimum of 1 is required. 
[Finished in 56.466s]

來源

2017-02-01 user7347576

您正在循環中使用X [i：1]。當我達到1時，您正在訪問返回空列表的X [1：1]。這是導致錯誤。 –

@DileepKumarPatchigolla我該怎麼做呢？ – user7347576

我對cosine_similarity不熟悉。你能提供X的樣子，所以我可以試試嗎？ –

目前尚不清楚你想要達到的目標。你正在矩陣的一個片段X和整個矩陣之間形成一個餘弦相似度。當i == 0時，片是空的。您的for語句遍歷矩陣，但您從不使用迭代變量，每個變量。

餘弦相似性是等長度的兩個向量之間的操作。舉例來說，你可以計算我行之間的相似和行Ĵ與

cosine_similarity(X[i], X[j])

如果你希望所有在列表計算的行到行的相似之處，使用列表理解：

similarity = [cosine_similarity(a, b) for a in X for b in X]

這讓你感動嗎？

來源

2017-02-01 18:14:48 Prune

使用Python計算餘弦相似度

回答

相關問題