cosine-similarity

    3熱度

    2回答

    我定義了兩個矩陣類似以下內容: from scipy import linalg, mat, dot a = mat([-0.711,0.730]) b = mat([-1.099,0.124]) 現在,我要計算這兩個矩陣的餘弦相似性。以下代碼有什麼問題。它給我的objects are not aligned c = dot(a,b)/np.linalg.norm(a)/np.linalg

    0熱度

    1回答

    找到兩個非常大的矩陣的本徵向量的餘弦相似度以比較它們的相似程度是否是一個有效的度量? 我有兩個非常大的矩陣A和B.我發現: - >協方矩陣C^甲和C 乙, - 的ç> 20大特徵向量A和C B, - >餘弦前20個特徵向量之間的相似性。 基於餘弦值得出矩陣A和B是相似/不相似的結論是否正確?

    2熱度

    1回答

    您好我想要計算我的查詢和我的信息檢索程序在Python中返回的文檔之間的餘弦相似度。 餘弦相似度我使用這個實現: import math def cosine_similarity(v1,v2): sumxx, sumxy, sumyy = 0, 0, 0 for i in range(len(v1)): x = v1[i]; y = v2[i] s

    4熱度

    1回答

    我在這裏是新的,我的問題是數學而不是編程的性質,我想就我的方法是否有意義得到第二個意見。 我試圖使用函數findAssocs從tm包中找到我的語料庫中的單詞之間的關聯。儘管「紐約時報」和美國國會等一攬子文件提供的數據看起來表現不錯,但我對自己的整理數據集的表現感到失望。它似乎很容易被罕見的文件扭曲,其中包含幾個重複的相同單詞,似乎在它們之間產生了強烈的關聯。我發現餘弦測量能夠更好地瞭解術語是如何相

    1熱度

    1回答

    如果我有一個查詢向量A和一個項目向量B,如果有人能夠指導我如何權衡/歸一化向量(同樣的策略),那將是非常棒的。向量A將具有以下組件(property1(二進制),property2(二進制),屬性3(int從0到50範圍內),property4(從範圍內的int(0到10) 向量B將具有相同性能 我知道,使用餘弦相似性這兩個向量夾角會給我2個向量之間的距離。我想基於相似性來創建一個建議。 ,但我不

    1熱度

    1回答

    可以說我有一個用戶評分不同產品的數據庫,其評分爲1-5。我們的推薦引擎根據高度相似的其他用戶的偏好向用戶推薦產品。我找到類似用戶的第一種方法是使用餘弦相似度,並將用戶評分作爲向量組件來處理。這種方法的主要問題在於,它只是測量矢量角度,並沒有考慮評級尺度或大小。 我的問題是這樣的: 誰能向我解釋爲什麼餘弦相似度以任何方式更適合於判斷用戶的相似性比簡單地測量兩個向量(用戶)的矢量分量之間的百分比差異?

    0熱度

    1回答

    我有一個很多用戶(超過1000萬)的列表,每個用戶都有一個用戶標識,後面跟着10個浮點數字,表示他們的偏好。我想用基於mapreduce的餘弦相似度高效地計算用戶相似度矩陣。但是,由於這些值是浮點數,因此很難確定mapreduce框架中的鍵。有什麼建議麼?

    0熱度

    2回答

    隨着我的函數以下代碼來計算查詢的餘弦相似性數據: def rank_retrieve(self, query): """ Given a query (a list of words), return a rank-ordered list of documents and score for the query. self.docs : list

    2熱度

    1回答

    我正在嘗試構建一個算法,能夠根據我喜歡的以前的文章來預測我是否會喜歡一篇文章。 例子: 我讀50篇文章,我很喜歡10.我告訴我的節目,我很喜歡他們。 然後20篇新文章即將到來。根據我以前喜歡的10個,我的程序必須爲每篇新文章給出「相似百分比」。 我發現這裏鉛: Python: tf-idf-cosine: to find document similarity >>> from sklearn.f

    -2熱度

    1回答

    我正試圖執行各種學生之間的食物量向量的餘弦相似性。我有一個包含一個CSV文件: Student food amount John apple 15 John banana 20 John orange 1 John grape 3 Ben apple 2 Ben orange 4 Ben strawberry 8 Andrew apple 10 An