fuzzy-comparison

2熱度

1回答

人類犯錯誤。當你要求他們提供一些識別某個實體的唯一生成的ID時。例如：訂單A：有ID ABC1234 訂單B：有ID BCD1235 他們可以打錯別字，他們可以爲ex提供字符串：A123，B123，1 2 3，「訂單ID B 12/3」然後自動系統挑戰識別原始ID。我的問題是有沒有已知的算法/技術。生成 - 具有容錯功能的唯一人可讀ID（非sha或md5）。您可以從字符子集中繼續解碼原

1熱度

2回答

模糊比較兩列

我有一個CSV文件，其中包含搜索字詞（數字和文本），我想與其他字詞（數字和文本）的列表進行比較，以確定是否存在任何匹配項或潛在匹配項。然後，我想將所有結果寫入新的CSV以進行手動審覈。我正在使用fuzzywuzzy插件創建一個「分數」來確定術語之間的匹配程度。理想情況下，我可以根據比例進行過濾。我當前的代碼將文件行一對一地比較，而不是將第一個文件中的一行與第二行中的所有行進行比較;這是我需要的。

1熱度

1回答

找到兩個數據幀的匹配和重寫答案數據幀

我有一個清潔併合併爲一個CSV文件中的兩個數據幀，數據幀都是這樣 **Source Master** chang chun petrochemical CHANG CHUN GROUP chang chun plastics CHURCH AND DWIGHT CO INC church dwight CITRIX SYSTEMS ASIA PACIFIC P L

0熱度

3回答

模糊匹配人名單

我想看看兩部電影之間的電影是否相同，並且要這樣做我想比較演員作爲其中一項標準。但是，演員經常在不同的頁面上列出。例如：在此頁面，https://play.google.com/store/movies/details?id=cSdcb2KOH74，演員們被列爲「米克哈爾·加拉斯蒂恩，丹尼·特喬，吉列爾莫·迪亞斯，奧列格·塔克塔羅維，凱姆·惠特利，克里斯托弗羅賓·米勒，羅伯特熊，弗拉基米爾·亞格利

0熱度

1回答

口語詞語中的分詞音頻

我有一段長文本的音頻文件，其中有不同的部分，全部以口頭詞「第」開頭（由同一位發言者敘述）。有沒有辦法在這些文字中將音頻文件分割成更小的文件？我想切割出的「章」這個詞出現之一的，把它放在一個單獨的音頻文件，然後使用一些工具，用於對一小段原始音頻的模糊匹配找到「章節「發生，並在這些事件中拆分原始文件。哪個工具可以做到這一點？ SOX？大膽？

2熱度

1回答

水母的Damerau-Levenshtein距離計算車？

我正在嘗試使用Jellyfish來處理模糊字符串。我注意到Damerau–Levenshtein distance算法的一些奇怪行爲。例如： import jellyfish as jf In [0]: jf.damerau_levenshtein_distance('ZX', 'XYZ') Out[0]: 3 In [1]: jf.damerau_levenshtein_distance(

3熱度

1回答

Jaro的特殊行爲距離在JellyFish

我想用水母來處理模糊的字符串。我注意到jaro_distance算法的一些奇怪行爲。我以前用damerau_levenshtein_distance算法出現了一些問題，這個算法似乎是代碼中的一個錯誤，然後棧用戶在github上提出了一個問題。我不確定我是否在考慮錯誤的措施，或者它是否是一個真正的錯誤。我已經看過源代碼（http://goo.gl/YVMl8k），但我不熟悉C，所以很難知道這是一

1熱度

1回答

R - 基於不一致全名格式的部分匹配合並兩個數據文件

這是我以前用R格式轉發的問題。我正在尋找一種合併兩個數據文件的方法，它基於部分匹配的參與者的全名，有時以不同格式輸入並且有時拼錯。我知道部分匹配有一些不同的功能選項（如agrep和pmatch）和合並數據文件，但我需要幫助：a）組合這兩個; b）進行可以忽略中間名的部分匹配; c）在合併的數據文件存儲中都使用原始名稱格式，d）保留唯一值，即使它們沒有匹配。例如，我有以下兩個數據文件：文件名稱

0熱度

1回答

如何在neo4j密碼中進行三元組/模糊匹配？

我使用的是具有show_trgam（）和similarity（）的postgreSQL。我是neo4j的新手，想對兩個字符串進行模糊比較。如果比較會返回一個分數，那將會很棒。任何反應表示讚賞。

2熱度

3回答

更好的模糊匹配性能？

我目前使用從difflib方法get_close_matches方法通過15000個字符串列表進行迭代，以獲得最匹配的對大約15000串的另一個列表： a=['blah','pie','apple'...] b=['jimbo','zomg','pie'...] for value in a: difflib.get_close_matches(value,b,n=1,cuto