similarity

    2熱度

    1回答

    背景 - 我有一組客戶數據和使用的字符串匹配算法來比較的所有記錄的相似性。然後,我需要直接或通過關聯將彼此相關的結果進行分組,併爲每個組應用唯一的ID。 問題 - 我不能想辦法以連接在一起的記錄,並應用一個唯一的ID爲每個組 例 數據目前看起來是這樣的,已找到的匹配(MatchScore與此處的問題無關,只是爲了證明數據來自哪裏)。 +-------------+-------------+---

    0熱度

    1回答

    我正試圖計算由entity_id,type_of_order,total_value描述的n個實體之間的相似度。 的數據的一個例子可能是這樣的: NR entity_id type_of_order total_value 1 1 A 10 2 1 B 90 3 1 C 70 4 2 B 20 5 2 C 40 6 3 A 10 7 3

    1熱度

    1回答

    我第一次嘗試Gensim,現在有一個問題。我已經培訓了一個準備好文件的語料庫的LSI模型。我的問題是,如何知道新文檔是否與從文檔語料庫生成的我的模型相似。我不想知道文檔與MatrixSimilarity之類的語料庫中的每個文檔的相似性,而是知道文檔是否與我的主題/模型相似。

    1熱度

    1回答

    我是機器學習的新手,試圖嘗試以下問題。 輸入是2個相同長度的描述數組,並且輸出是來自第一個數組的第一個字符串與第二個數組中的第一個字符串相比的相似性得分的數組。 數組(numpy數組)中的每個項都是一個字符串描述。你能寫出一個函數來計算兩個字符串之間的相似程度嗎?通過計算有多少相同和共同出現的字ID,併爲它分配一個分數(一個可能的權重可以基於共現頻率與頻率之和單個單詞ID)。然後將該函數應用於兩個

    0熱度

    2回答


    0熱度

    1回答

    我想根據它們的相似程度排列文件夾中的很多圖像。這些圖像是組織切片從組織微陣列(例如:http://www.proteinatlas.org/images/36302/112008_A_6_6.jpg) 我曾嘗試: 我採取的第一個圖像,把它比作一切,與最佳匹配的匹配起來。然後,我採取最接近的比賽,並做同樣的事情。爲了計算相似性,我嘗試過結構相似性指數和哈希(pHash,dHash),他們都沒有很好地

    0熱度

    1回答

    我有2000行4000列的數據。我想要做的是將每行與其餘行進行比較,並查看它們在不同列/總列中的相似程度。 我所做的一切至今如下: for (i in 1:nrow(data)) { for (j in (i+1):nrow(data)) { mycount[[i,j]] = length(which(data[i,] != data[j,])) }

    2熱度

    3回答

    我有一個陣列A和一個參考陣列B。 A的尺寸至少與B一樣大。例如 A = [2,100,300,793,1300,1500,1810,2400] B = [4,305,789,1234,1890] B實際上峯的一個信號在指定的時間的位置,和含有A在稍後的時間的峯的位置。但A中的一些元素實際上不是我想要的峯值(可能是由於噪音等原因),我想根據B找到A中的「真實」元素。 A中的'real'元素應該

    1熱度

    2回答

    我有一個叫FindSimilar類使用最小哈希找到2套(及這一目標,它的偉大工程)之間的相似性。我的問題是我需要比較2組以上,更具體地說,我需要比較給定的set1與未知數量的其他組。這裏是類: import java.util.HashSet; import java.util.Map; import java.util.Random; import java.util.Set; pub

    0熱度

    1回答

    我使用gensim構建一個LSI語料庫,然後應用以下gensim教程查詢相似(tut1,tut2ñtut3) 我問題是,當我嘗試calcualte查詢相似如圖所示下面的代碼我以(docID,simScore)元組的形式得到結果。 我需要使用docID來檢索文檔的字符串表示形式。 (類似於corpora.Dictionary的token2id映射) 谷歌搜索,我無法找到任何有用的 我的代碼搜索 de