我想計算文章之間的餘弦相似度。我遇到了一個問題,即我的實現方法需要很長時間來處理我要運行的數據的大小。如何在Python中爲餘弦相似度運行大型矩陣?
from scipy import spatial
import numpy as np
from numpy import array
import sklearn
from sklearn.metrics.pairwise import cosine_similarity
I = [[3, 45, 7, 2],[2, 54, 13, 15], [2, 54, 1, 13]]
II = [2, 54, 13, 15]
print cosine_similarity(II, I)
以上例爲例,計算I和II已經花了1.0s,我的數據的維數在(100K,2K)左右。
是否有其他軟件包可用於運行巨大的矩陣?
幾個例子在這裏http://stackoverflow.com/questions/18424228/cosine-similarity-between-2-number-lists – tinySandy
@minitoto最好的答案就是實施我有。但我認爲這並不能解決大規模數據的問題。 – YAL