如何加速在python中使用嵌套循環計算餘弦相似度的時間

我試圖計算所有值之間的餘弦相似度。如何加速在python中使用嵌套循環計算餘弦相似度的時間

1000 * 20000的計算時間花了我10多分鐘。

代碼：

from gensim import matutils 
# array_A contains 1,000 TF-IDF values 
# array_B contains 20,000 TF-IDF values 
for x in array_A: 
    for y in array_B: 
     matutils.cossim(x,y)

因此，有必要使用gensim包拿到TF-IDF值和相似度計算。

有人可以給我一些建議和指導，以加快時間？

來源

2017-09-18 Scoota

是否有可能擺脫for循環之一？ Cython會加快速度嗎？ –

使用memoize的，也可能使用元組（可能更快）的陣列：

def memoize(f): 
    memo = {} 

    def helper(a, b): 
     if (b, a) in memo: return memo[b, a] 
     elif (a, b) in memo: return memo[a, b] 
     else: 
      memo[(a, b)] = f(a, b) 
      return memo[a, b] 

    return helper 


@memoize 
def myfunc(a, b): 
    matutils.cossim(x,y)

編輯也使用上面的代碼，以防萬一你做其他事情有可能添加此之後數據

cossim_responses = [myfunc(a, b) for a in array_A for b in array_B] 
# you could also do (myfunc(a, b) for a in array_A for b in array_B)

來源

2017-09-18 02:48:20

結果顯示「TypeError：unhashable type：'list'」 – Scoota

哪個代碼？我更新了它，以便它現在說a，b而不是a –

你可以看看源gensim的matutils.cossim()：

https://github.com/RaRe-Technologies/gensim/blob/2e58a1c899af05ee6a39a1dd1c49dd6641501a9c/gensim/matutils.py#L436

你會看到它在它的兩個（稀疏數組）參數上做了一些工作，將它們的非零維移動到臨時的字典中，然後計算它們的長度 - 每當同一個向量被重複時在您的循環中提供。

通過在每個向量上僅執行一次這些步驟，並記住在每次最終成對計算中重複使用的長度，可能會得到合理的加速。（也就是記錄臨時值，而不僅僅是最終值。）

來源

2017-09-18 21:57:01 gojomo

如何加速在python中使用嵌套循環計算餘弦相似度的時間

回答

相關問題