fuzzy-comparison

    2熱度

    1回答

    人類犯錯誤。 當你要求他們提供一些識別某個實體的唯一生成的ID時。 例如: 訂單A:有ID ABC1234 訂單B:有ID BCD1235 他們可以打錯別字,他們可以爲ex提供字符串:A123,B123,1 2 3,「訂單ID B 12/3」 然後自動系統挑戰識別原始ID。 我的問題是有沒有已知的算法/技術。生成 - 具有容錯功能的唯一人可讀ID(非sha或md5) 。您可以從字符子集中繼續解碼原

    1熱度

    2回答

    我有一個CSV文件,其中包含搜索字詞(數字和文本),我想與其他字詞(數字和文本)的列表進行比較,以確定是否存在任何匹配項或潛在匹配項。然後,我想將所有結果寫入新的CSV以進行手動審覈。我正在使用fuzzywuzzy插件創建一個「分數」來確定術語之間的匹配程度。理想情況下,我可以根據比例進行過濾。 我當前的代碼將文件行一對一地比較,而不是將第一個文件中的一行與第二行中的所有行進行比較;這是我需要的。

    1熱度

    1回答

    我有一個清潔併合併爲一個CSV文件中的兩個數據幀,數據幀都是這樣 **Source Master** chang chun petrochemical CHANG CHUN GROUP chang chun plastics CHURCH AND DWIGHT CO INC church dwight CITRIX SYSTEMS ASIA PACIFIC P L

    0熱度

    3回答

    我想看看兩部電影之間的電影是否相同,並且要這樣做我想比較演員作爲其中一項標準。但是,演員經常在不同的頁面上列出。例如: 在此頁面,https://play.google.com/store/movies/details?id=cSdcb2KOH74,演員們被列爲「米克哈爾·加拉斯蒂恩,丹尼·特喬,吉列爾莫·迪亞斯,奧列格·塔克塔羅維,凱姆·惠特利,克里斯托弗羅賓·米勒,羅伯特熊,弗拉基米爾·亞格利

    0熱度

    1回答

    我有一段長文本的音頻文件,其中有不同的部分,全部以口頭詞「第」開頭(由同一位發言者敘述)。有沒有辦法在這些文字中將音頻文件分割成更小的文件? 我想切割出的「章」這個詞出現之一的,把它放在一個單獨的音頻文件,然後使用一些工具,用於對一小段原始音頻的模糊匹配找到「章節「發生,並在這些事件中拆分原始文件。 哪個工具可以做到這一點? SOX?大膽?

    2熱度

    1回答

    我正在嘗試使用Jellyfish來處理模糊字符串。我注意到Damerau–Levenshtein distance算法的一些奇怪行爲。例如: import jellyfish as jf In [0]: jf.damerau_levenshtein_distance('ZX', 'XYZ') Out[0]: 3 In [1]: jf.damerau_levenshtein_distance(

    3熱度

    1回答

    我想用水母來處理模糊的字符串。我注意到jaro_distance算法的一些奇怪行爲。 我以前用damerau_levenshtein_distance算法出現了一些問題,這個算法似乎是代碼中的一個錯誤,然後棧用戶在github上提出了一個問題。 我不確定我是否在考慮錯誤的措施,或者它是否是一個真正的錯誤。我已經看過源代碼(http://goo.gl/YVMl8k),但我不熟悉C,所以很難知道這是一

    1熱度

    1回答

    這是我以前用R格式轉發的問題。 我正在尋找一種合併兩個數據文件的方法,它基於部分匹配的參與者的全名,有時以不同格式輸入並且有時拼錯。我知道部分匹配有一些不同的功能選項(如agrep和pmatch)和合並數據文件,但我需要幫助:a)組合這兩個; b)進行可以忽略中間名的部分匹配; c)在合併的數據文件存儲中都使用原始名稱格式,d)保留唯一值,即使它們沒有匹配。 例如,我有以下兩個數據文件: 文件名稱

    0熱度

    1回答

    我使用的是具有show_trgam()和similarity()的postgreSQL。我是neo4j的新手,想對兩個字符串進行模糊比較。如果比較會返回一個分數,那將會很棒。 任何反應表示讚賞。

    2熱度

    3回答

    我目前使用從difflib方法get_close_matches方法通過1​​5000個字符串列表進行迭代,以獲得最匹配的對大約15000串的另一個列表: a=['blah','pie','apple'...] b=['jimbo','zomg','pie'...] for value in a: difflib.get_close_matches(value,b,n=1,cuto