fuzzywuzzy

1熱度

3回答

考慮這個例子： >> from fuzzywuzzy import process >> choices = ['account', 'update', 'query'] >> process.extract('u', choices) [('account', 90), ('update', 90), ('query', 90)] 在上述情況下，它混淆了我的最終用戶是帳戶排名上面更

1熱度

2回答

搜索一個Python的數據幀/字典模糊匹配在另一個數據幀

我有50000個獨特行和20列下面大熊貓數據幀（包括是相關列的一個片段）： DF1： PRODUCT_ID PRODUCT_DESCRIPTION 0 165985858958 "Fish Burger with Lettuce" 1 185965653252 "Chicken Salad with Dressing" 2 165958565556 "Pork

0熱度

1回答

如何在Python中使用FuzzyWuzzy來命名兩個數據框之間的匹配？

我有df1和df2。我想使用fuzzywuzzy將df1中的列A與df2中的A列進行字符串匹配，並根據一定比例匹配返回df2列B中的ID。例如： DF1看起來是這樣的：名稱莎莉賣貝殼 DF2看起來是這樣的：名稱| ID Sally slls sshells | 28904 我試圖做的是比較在A列中DF1一切找到列A在DF2一根火柴，從B柱在DF2返回ID。我想能夠設置模糊比率的標準。例如

0熱度

1回答

多處理模糊模糊字符串搜索 - python

我想做字符串匹配，並在Python中使用模糊wuzzy帶來匹配id。我的數據集非常龐大，數據集1 = 180萬條記錄，數據集2 = 160萬條記錄。我試了一下，到目前爲止，首先我想在Python中使用record linkage包，遺憾的是它跑出來的內存時，它建立multi index，所以我搬到AWS具有良好的機動力，併成功構建了它，然而，當我試圖對它進行比較時，它會一直運行，我同意它的比較

0熱度

4回答

提取數字

我有一個網址列表，我想解析： ['https://www.richmondfed.org/-/media/richmondfedorg/press_room/speeches/president_jeff_lacker/2017/pdf/lacker_speech_20170303.pdf','http://www.federalreserve.gov/newsevents/speech/powe

2熱度

1回答

基於條件的兩個大型數據集上的模糊模糊字符串匹配-python

我有兩個大型數據集，我讀入Pandas DataFrames（分別爲〜20K行和〜40K行）。當我嘗試在地址字段上使用pandas.merge完全合併這兩個DF時，與行數相比，我得到了一個微不足道的匹配數。所以我想我會嘗試模糊字符串匹配，看看它是否改善了輸出匹配的數量。我嘗試在DF1 [20K行]中創建一個新列，這是將DF1 [addressline]上的fuzzywuzzy extracton

0熱度

1回答

如何使用第三方Jars運行PySpark例如fuzzywuzzy？

試過--jars選項和--driver-class-jar等。它仍然給了我'沒有模糊fuzzywuzzy'發現錯誤。

3熱度

1回答

多個值的字符串比較python

我有一組數據。第一個（A）是具有複雜名稱的設備列表。第二個是更廣泛的設備類別列表（B） - 我必須將第一個列表分組爲使用字符串比較。我知道這不會是完美的。對於列表A中的每個實體 - 我想爲列表B中的每個實體建立levenshtein距離。列表B中具有最高分數的記錄將是我將要分配該數據點的組。我在python中很生鏽 - 我正在玩FuzzyWuzzy來獲得兩個字符串值之間的距離。然而 - 我無法

0熱度

1回答

使用apache spark與scala的兩個配置單元列之間的模糊比較

我正在讀取2個hive表中的數據。令牌表具有需要與輸入數據匹配的令牌。輸入數據將包含說明欄和其他欄。我需要拆分輸入數據，並且需要將每個拆分元素與令牌表中的所有元素進行比較。目前我正在使用me.xdrop.fuzzywuzzy.FuzzySearch庫進行模糊匹配。下面是我的代碼snippet- val tokens = sqlContext.sql("select token from tok

1熱度

2回答

熊貓：我如何迭代2個不同的數據幀的循環？

我試圖計算模糊比例爲多行2個的數據幀： DF1： id name 1 Ab Cd E 2 X.Y!Z 3 fgh I DF2： name_2 abcde xyz 我想計算所有的值之間的模糊比在df1.name和df2.name_2中：要做到這一點，我有代碼： for i in df1['name']: for r in df2['name_2']: