cosine-similarity

    1熱度

    1回答

    據我所知,Lucene是一個反向索引系統,它的強大之處在於它只會將查詢與僅與至少匹配令牌的文檔進行比較。 與查詢與每個文檔進行比較(即使那些沒有提及查詢中存在的任何標記)的樸素方法相比,這是一個很大的好處。 例如,如果我有索引的文件: D1: "Hello world said the guy" D2: "Hello, what a beautiful world" D3: "random t

    2熱度

    1回答

    用numpy和theano計算餘弦相似度的最簡單方法是什麼? 作爲numpy數組給出的向量。 我試着用numpy計算餘弦相似度矩陣,它的工作起來很慢。然而,我對theano絕對陌生,但假設這個庫可以幫助我構建餘弦相似矩陣。 好吧,幫忙! :)

    -3熱度

    1回答

    How to efficiently retrieve top K-similar vectors by cosine similarity using R?詢問如何計算一個矩陣的每個向量相對於另一個矩陣的頂部相似向量。這是satisfactorily answered,我想調整它在單個矩陣上運行。 也就是說,我想在矩陣中的每一行頂部K類似其他行。我懷疑解決方案非常相似,但可以進行優化。

    -1熱度

    1回答

    比較選擇2列存儲在每個行中的文本我有2個矢量 一個= C( 「ABC」, 「DEF」, 「GHI」, 「JKL」) B = C( 「ABC」, 「dez」,「gyx」,「mno」) 如何獲得餘弦值以比較相應的條目?在這種情況下,我需要能夠說每個向量中的第一個條目完全相似,並且每個向量中的第二個條目稍微相似...並且每個向量中的最後一個條目完全不相似?我嘗試了LSA包 - 但我能得到一個整體的餘弦值

    0熱度

    2回答

    舉個例子,假設我有一個非常簡單的數據集。我給了一個csv三列,user_id,book_id,rating。評分可以是0-5的任何數字,其中0表示用戶具有而不是評價該書。 比方說,我隨機挑三個用戶,我得到這些功能/評級向量。 馬丁:< 3,3,5,1,2,3,2,2,5> 雅各布:< 3,3,5,0,0,0,0,0,0> 格蘭特:< 1,1,1,2,2,2,2,2,2> 相似度計算: +-----

    1熱度

    2回答

    我想計算文章之間的餘弦相似度。我遇到了一個問題,即我的實現方法需要很長時間來處理我要運行的數據的大小。 from scipy import spatial import numpy as np from numpy import array import sklearn from sklearn.metrics.pairwise import cosine_similarity I =

    1熱度

    3回答

    我有尺寸6. a=c("HDa","2Pb","2","BxU","BuQ","Bve") b=c("HCK","2Pb","2","09","F","G") 的2個載體誰能解釋我應該怎麼辦呢?

    2熱度

    1回答

    分別取兩個大小爲mxn和pxn的矩陣arr1,arr2。我試圖找到他們尊敬的行的餘弦距離作爲一個mxp矩陣。基本上我想要採用行的成對點積,然後除以每行的規範的外積。 import numpy as np def cosine_distance(arr1, arr2): numerator = np.dot(arr1, arr2.T) denominator = np.oute

    0熱度

    1回答

    我有一個布爾值/二進制值,其中當客戶實際購買產品時找到客戶和產品ID,如果客戶沒有購買它,則找不到。這樣表示的數據集: Dataset 我已經嘗試了不同的方法,如GenericBooleanPrefUserBasedRecommender與TanimotoCoefficient或數似然相似之處,但我自己也嘗試GenericUserBasedRecommender與非中心餘弦相似度,它給了我最高的精

    2熱度

    4回答

    這是my_matrix: ui 194635691 194153563 177382028 177382031 195129144 196972549 196258704 194907960 196950156 194139014 153444738 192982501 192891196 1 237 0.00 0.00 0.00 0.00 0.00 0.00 0 0.01