cosine-similarity

    4熱度

    2回答

    我想計算兩個列表的餘弦相似類似以下內容: A = [u'home (private)', u'bank', u'bank', u'building(condo/apartment)','factory'] B = [u'home (private)', u'school', u'bank', u'shopping mall'] 我知道的餘弦相似性和乙方應 3/(sqrt(7)*sqrt(4

    4熱度

    1回答

    我在想火花餘弦相似度是否可以用於稀疏輸入數據?我看到的例子,其中,所述輸入包括所述形式的空間分隔的特徵的行: id feat1 feat2 feat3 ... 但是我有一種固有的稀疏,隱式反饋設置和想有輸入形式: id1 feat1:1 feat5:1 feat10:1 id2 feat3:1 feat5:1 .. ... 我想利用稀疏來改善計算。最後我還希望使用DIMSUM算法來計算

    -1熱度

    1回答

    我正在使用餘弦相似度函數來比較用戶輸入和SQL中的數據之間的值。最高值將被檢索並顯示。 但是,k是從comboBox獲得的值,它是意味着它們需要實現的硬約束。所以我把它設置成這樣: 索引X中找到的最高值。在顯示之前,它會檢查一天是否等於k。如果不是,它將看第二高等,直到日等於k。 但是這根本沒有意義。如果day只有在第九個最高值時纔等於k,那麼我需要設置到第九個最高值?有什麼方法可以解決這個問題嗎

    5熱度

    1回答

    我使用word2vec來表示一個小短語(3到4個字)作爲一個獨特的矢量,要麼通過添加每個單詞嵌入或通過計算字嵌入的平均值。 從我做過的實驗中總會得到相同的餘弦相似度。我懷疑它與word2vec生成的單詞向量在訓練之後是否與單位長度(歐幾里得範數)相同?或者我在代碼中有一個BUG,或者我錯過了一些東西。 下面是代碼: import numpy as np from nltk import Punk

    0熱度

    2回答

    我試圖計算Jaccard相似 y= 1 - scipy.spatial.distance.pdist(X,metric="jaccard") X是m x n矩陣和我得到尺寸m choose 2的1-d陣列這個函數的結果。我如何將相似度值映射回來以獲得對稱數組或者(非對稱數組,無論哪種方式都很好),所以我可以告訴X中的哪兩個向量(X中的每一行是布爾向量)都會生成特定的jaccard相似度值在y?

    2熱度

    1回答

    對於一項任務,我應該測試不同類型的推薦器,我必須首先實施。我一直在四處尋找一個好的圖書館來做這件事(我曾經想過Weka),並且偶然發現了Mahout。因此,我必須提出:a)我對Mahout完全陌生b)我沒有強大的推薦人背景和算法(否則我不會做這個課程......)和c )對不起,但我遠沒有成爲世界上最好的開發者==>我會很感激,如果你可以使用外行術語(儘可能......):) 我一直在關注一些教程

    1熱度

    2回答

    我有一個字典是這樣的: dict = {in : [0.01, -0.07, 0.09, -0.02], and : [0.2, 0.3, 0.5, 0.6], to : [0.87, 0.98, 0.54, 0.4]} 欲計算我已經寫了一個函數,它接受兩個向量每個單詞之間的餘弦相似性。首先,它將爲'in'和'and'帶來價值,然後它應該爲'in'和'to'等等帶來價值。 我希望它將結果存儲在

    1熱度

    1回答

    我有一個字典是這樣的: dict = {in : [0.01, -0.07, 0.09, -0.02], and : [0.2, 0.3, 0.5, 0.6], to : [0.87, 0.98, 0.54, 0.4]} 欲計算,我有一個餘弦相似度函數,它接受兩個向量每個單詞之間的餘弦相似性。首先,它將爲'in'和'and'帶來價值,然後它應該爲'in'和'to'等等帶來價值。 我希望它將結果

    0熱度

    1回答

    當前我正在研究數據挖掘,文本比較,並發現了這一個:https://en.wikipedia.org/wiki/Cosine_similarity。 由於我已經成功實現了這個算法來比較兩個字符串,我決定嘗試一些更復雜的任務來實現。 我重複了我的數據庫,其中包含大約250k文檔,並將DB中的一個隨機文檔與該數據庫中的整個文檔進行比較。 比較所有這些項目的時間:316.35898590088秒,即 -

    1熱度

    2回答

    如何從pandas數據框(餘弦相似度矩陣)找到第二個max或max where index!=列?我可以遍歷每個列,並完成指標!=列,但我相信有一個更好的辦法... import pandas as pd cos = pd.DataFrame([ [ 1. , 0.17404038, 0.36849397], [ 0.17404038, 1. , 0.20505339],