fuzzywuzzy

    1熱度

    3回答

    考慮這個例子: >> from fuzzywuzzy import process >> choices = ['account', 'update', 'query'] >> process.extract('u', choices) [('account', 90), ('update', 90), ('query', 90)] 在上述情況下,它混​​淆了我的最終用戶是帳戶排名上面更

    1熱度

    2回答

    我有50000個獨特行和20列下面大熊貓數據幀(包括是相關列的一個片段): DF1: PRODUCT_ID PRODUCT_DESCRIPTION 0 165985858958 "Fish Burger with Lettuce" 1 185965653252 "Chicken Salad with Dressing" 2 165958565556 "Pork

    0熱度

    1回答

    我有df1和df2。我想使用fuzzywuzzy將df1中的列A與df2中的A列進行字符串匹配,並根據一定比例匹配返回df2列B中的ID。 例如: DF1看起來是這樣的: 名稱 莎莉賣貝殼 DF2看起來是這樣的: 名稱| ID Sally slls sshells | 28904 我試圖做的是比較在A列中DF1一切找到列A在DF2一根火柴,從B柱在DF2返回ID。 我想能夠設置模糊比率的標準。例如

    0熱度

    1回答

    我想做字符串匹配,並在Python中使用模糊wuzzy帶來匹配id。我的數據集非常龐大,數據集1 = 180萬條記錄,數據集2 = 160萬條記錄。 我試了一下,到目前爲止, 首先我想在Python中使用record linkage包,遺憾的是它跑出來的內存時,它建立multi index,所以我搬到AWS具有良好的機動力,併成功構建了它,然而,當我試圖對它進行比較時,它會一直運行,我同意它的比較

    0熱度

    4回答

    我有一個網址列表,我想解析: ['https://www.richmondfed.org/-/media/richmondfedorg/press_room/speeches/president_jeff_lacker/2017/pdf/lacker_speech_20170303.pdf','http://www.federalreserve.gov/newsevents/speech/powe

    2熱度

    1回答

    我有兩個大型數據集,我讀入Pandas DataFrames(分別爲〜20K行和〜40K行)。當我嘗試在地址字段上使用pandas.merge完全合併這兩個DF時,與行數相比,我得到了一個微不足道的匹配數。所以我想我會嘗試模糊字符串匹配,看看它是否改善了輸出匹配的數量。 我嘗試在DF1 [20K行]中創建一個新列,這是將DF1 [addressline]上的fuzzywuzzy extracton

    0熱度

    1回答

    試過--jars選項和--driver-class-jar等。它仍然給了我'沒有模糊fuzzywuzzy'發現錯誤。

    3熱度

    1回答

    我有一組數據。第一個(A)是具有複雜名稱的設備列表。第二個是更廣泛的設備類別列表(B) - 我必須將第一個列表分組爲使用字符串比較。我知道這不會是完美的。 對於列表A中的每個實體 - 我想爲列表B中的每個實體建立levenshtein距離。列表B中具有最高分數的記錄將是我將要分配該數據點的組。 我在python中很生鏽 - 我正在玩FuzzyWuzzy來獲得兩個字符串值之間的距離。然而 - 我無法

    0熱度

    1回答

    我正在讀取2個hive表中的數據。令牌表具有需要與輸入數據匹配的令牌。輸入數據將包含說明欄和其他欄。我需要拆分輸入數據,並且需要將每個拆分元素與令牌表中的所有元素進行比較。 目前我正在使用me.xdrop.fuzzywuzzy.FuzzySearch庫進行模糊匹配。下面 是我的代碼snippet- val tokens = sqlContext.sql("select token from tok

    1熱度

    2回答

    我試圖計算模糊比例爲多行2個的數據幀: DF1: id name 1 Ab Cd E 2 X.Y!Z 3 fgh I DF2: name_2 abcde xyz 我想計算所有的值之間的模糊比在df1.name和df2.name_2中: 要做到這一點,我有代碼: for i in df1['name']: for r in df2['name_2']: