cosine-similarity

    2熱度

    1回答

    我試圖計算維基百科文檔之間的行相似性。我有格式爲Key class: class org.apache.hadoop.io.Text Value Class: class org.apache.mahout.math.VectorWritable的tf-idf向量。我從這裏以下文本分析的快速瀏覽:https://cwiki.apache.org/confluence/display/MAHOUT/

    0熱度

    3回答

    我在編碼餘弦相似度的PHP。有時候formula會給出一個結果。爲了獲得使用逆COS這個數字一定程度上,它需要是1和0 之間我知道,我並不需要一個度,因爲越接近1,越相似,它們是,越接近0越不相似。 不過,我不知道做什麼上面1.一些它是否僅僅意味着它是完全不一樣? 2是否比0更少? 你能說相似度順序那種雲: 最近1從下到0 - 最相似的,因爲它移動從0到一個。 距離上面最近的1個 - 越來越不相似

    4熱度

    1回答

    如何在Lucene中實現tf-idf和餘弦相似性?我正在使用Lucene 4.2。我創建的程序不使用tf-idf和Cosine similaryty,它只使用TopScoreDocCollector。 import com.mysql.jdbc.Statement; import java.io.BufferedReader; import java.io.File; import java

    1熱度

    1回答

    我使用向量來表示單詞上下文,我需要將上下文彼此進行比較。以下是我的問題的簡化版本: 假設我有一個向量a=[1,1,15,2,0]。然後我有一個向量b=[0,0,15,0,0]和c=[1,1,11,0,1]。當通過餘弦相似性比較兩個向量時,b最接近a。但是,由於向量代表上下文c在我的情況下更有意義,因爲b只是恰好與原始文件共有一個詞並具有相同分數的上下文。 我怎樣才能返回c最相似?另一種相似性測量或

    0熱度

    1回答

    我有記錄(行)在數據庫中,我想識別相似的記錄。我有一個使用餘弦相似性的約束。如果變量(屬性,列)的類型而有所不同,並提出以這種形式: [number] [number] [boolean] [20 words string] 我如何可以繼續申請餘弦相似性的量化?對於字符串我可以採取簡單的tf-idf。但是對於數字和布爾值?這又如何結合?我的想法是矢量長度爲1 + 1 + 1 + 20。但是在語

    0熱度

    1回答

    我開始知道lucene函數getTermFreqVector()如何在計算兩個文檔之間的餘弦theta相似度距離時工作。任何人都可以在getTermFreqVector(文檔編號,字段名稱)中指出什麼是「字段名稱」

    2熱度

    1回答

    我想編寫一個程序來計算兩個副詞或兩個形容詞的相似度,但是WordNet對於副詞和形容詞沒有本體結構。 第一次嘗試時,我使用了Adapt-lesk算法。這個算法的結果是非常令人失望的副詞或形容詞。計算這些相似度的最佳方法是什麼?請幫我解決這個問題。 謝謝大家。

    33熱度

    6回答

    給出一個稀疏矩陣列表,計算矩陣中每列(或行)之間餘弦相似度的最佳方法是什麼?我寧願不重複n次選擇 - 兩次。 假設輸入矩陣是: A= [0 1 0 0 1 0 0 1 1 1 1 1 0 1 0] 的稀疏表示是: A = 0, 1 0, 4 1, 2 1, 3 1, 4 2, 0 2, 1 2, 3 在Python,它是簡單的與基質輸入格式的工作: import nu

    2熱度

    1回答

    我要計算的餘弦相似性1(ID1)和3(ID1)在PHP之間,類似地,對於圖1和4,3和4的公式將是這樣的: 相似=(1.1×3.1 + 1.4×3.4)/(((1.1)^ 2 +(1.3)^ 2 +(1.4)^ 2)^ 0.5)(((3.1)^ 2 +(3.4)^ 2)^ 0.5 )=(4 * 4 + 8×4)/(((16 + 16 + 64)^ 0.5)(16 + 16)^ 0.5)) 我的數據

    0熱度

    2回答

    我有一套300.000左右的矢量,我想以某種方式進行比較,給出一個矢量我希望能夠找到最接近的矢量,我想到了三種方法。 簡單的歐氏距離 餘弦相似 使用內核(例如高斯)來計算格拉姆矩陣。 將矢量視爲離散概率分佈(這使得 有意義)並計算一些散度測量。 我真的不明白什麼時候做一個而不是另一個有用。我的數據有很多零元素。考慮到這一點,是否有一些一般的經驗法則來確定三種方法中哪一種最好? 對不起,我不得不從某