similarity

    0熱度

    1回答

    我嘗試以編程方式從數據集中刪除幾乎重複的數據之一。我的數據集在邏輯上類似於下表。如您所見,數據集中有兩行,人類可以很容易地理解這兩個數據是相關的,並且可能由同一個人添加。 我解決這個問題是使用萊文斯坦比較單獨字段(姓名,地址,電話號碼),並發現他們的相似率。然後我計算平均比率爲0.77873。這種相似性結果似乎很低。我的python代碼就像 from Levenshtein import rati

    2熱度

    1回答

    我有一個csv文件,名稱接近845k行。 我想比較模糊名稱字符串匹配。 我用Java fuzzy string matching實現了衆所周知的Python的fuzzywuzzy算法。 在代碼下面實現它對我來說非常完美。 問題是過程時間到很多。 每行比較時間與其他行近15秒。 這是一小時240行,整個過程將近6000行。 而且所有的過程都將在幾個月內完成。 這是不可接受的工作時間。 我需要一種優化

    1熱度

    1回答

    git-scm可讓您確定存儲在同一存儲庫中的文件的即時重命名(例如,git diff --find-renames)。 如果我有十幾個文件集(例如,約10套總(這可能是一些有點相關軟件的獨立分支,例如,* BSD系統)),並在每組約25K的文件。 (每一組可能會每天更新,並表示不帶任何歷史結賬。) 鑑於文件從一組,我想知道什麼是可能的先輩或子孫文件(或文件)另一套。 (需要注意的是混帳本身因此不是

    0熱度

    1回答

    Scorelife_disct={'scorelife41': ['c', 'hindi', 'sql', 'scala', 'love'], 'scorelife42': ['c', 'sql', 'english', 'Cat', 'html', 'cPlus', 'love'], 'scorelife43': ['c', 'Cat', 'friend', 'love']} User_

    2熱度

    2回答

    我們正在開發Record linkage項目。 我們從所有像哈羅溫克勒的Levenshtein,N-革蘭,Damerau-的Levenshtein,的Jaccard指數,索倫森-骰子 說的標準技術的觀察奇怪的行爲, 字符串1 = MINI GRINDER KIT 字符串2 = Weiler 13001迷你研磨機配件套件,用於小直角研磨機 字符串3 =密爾沃基視頻內窺鏡,旋轉檢測範圍,系列:M-SP

    1熱度

    1回答

    我想要計算數據集中每個N項目的前20個相似項目。 每個項目都使用M的特徵來表示因此數據大小爲N_items X M_features。 當我沒有指定n_neighbors(默認值是5)時,kneighbors函數需要很多時間。 但是,當我指定n_neighbors = N_items時,它幾乎立即給出結果。 即NN_object = NearestNeighbors()需要很多時間才能找到knei

    1熱度

    2回答

    我需要預處理的數據轉換爲數字,以便能夠在數據集中應用ML算法,但有這個功能,它幾乎是樹形結構與我不知道字符串如何改造。這裏去一個例子: Feature -> Value I would like to transform to (example): X Y Z foo -> 0.5 X Y Z bar -> 0.501 A B C foo -> 4.1 W B C foo -> 5

    2熱度

    2回答

    我在Excel中使用以下vb代碼來計算列A和列B之間的程度相似度。它運行得非常好。 對我來說,下一步是定義首字母縮略詞,以便計算出的相似度不受影響。 IE:如果我在A列「ABC有限責任公司」和B列「ABC有限責任公司」中,目前的VB代碼將返回兩列不很相似。然而,我希望他們通過定義「有限責任公司」和「有限責任公司」確實是一回事,將其歸爲100%類似。我可以做什麼,我可以在代碼中將它放在哪裏來完成此任

    1熱度

    1回答

    我對word2vec輸出向量的解釋有些困惑! 如果我想預測在特定單詞(w1)之後出現的最可能的單詞,我可以使用最靠近w1的單詞嗎? 我的意思是,與w1距離最短的單詞可以解釋爲最高概率的下一個單詞?

    1熱度

    1回答

    我試圖計算2個句子之間的相似度,所以我有2個單詞集合,每個代表一個句子,還有一個函數(F)接收兩個單詞並返回它們之間的相似度一個方式.. 在圖像1中,黑圓圈是句子A的話,紅色正方形表示句子B. 對於每個時間函數(F)接收2個字,它返回0.0之間的值和1.0,例如:A中的第一個單詞和B中的第三個單詞具有0.3的相似性分數。 我已經使用了M×N的比較,因爲這兩個句子的順序往往不一樣,還有一些單詞。 我