fuzzy-comparison

1熱度

1回答

我想將R中的模糊查找邏輯應用於下面鏈接中提到的數據集，並希望獲得與我們通過SSIS獲得的結果相同的結果。 https://www.codeproject.com/Tips/528243/SSIS-Fuzzy-lookup-for-cleaning-dirty-data 請如在以上提到的鏈接源的多於一個柱被匹配到目標的多個列的術語解釋。查找表的上述鏈接（First_Name，Last_Name）與R

0熱度

1回答

名稱的近似字符串匹配算法

我正在爲以下示例尋找模糊字符串算法：給定現有名稱的數據庫，如果匹配的準確性高於輸入閾值，則將匹配輸入匹配到最匹配的名稱90％），或以其他方式NA database = [James Bond, Michael Smith] 輸入 James L Bond->James Bond JBondL->James Bond Bond,James->James Bond BandJamesk->J

0熱度

1回答

PostgresSQL：使用來自兩個表格的模糊匹配的地址匹配

我想做什麼; 我有兩個表有兩個地址列，都存儲爲text我想創建一個視圖返回匹配的行。我試過了; 我已經創建和索引的列和表如下; CREATE INDEX idx_table1_fulladdress ON table1 (LOWER(fulladdress_ppd)); 然後運行以下; CREATE OR REPLACE VIEW view_adresscheck AS SELECT --f

2熱度

1回答

基於條件的兩個大型數據集上的模糊模糊字符串匹配-python

我有兩個大型數據集，我讀入Pandas DataFrames（分別爲〜20K行和〜40K行）。當我嘗試在地址字段上使用pandas.merge完全合併這兩個DF時，與行數相比，我得到了一個微不足道的匹配數。所以我想我會嘗試模糊字符串匹配，看看它是否改善了輸出匹配的數量。我嘗試在DF1 [20K行]中創建一個新列，這是將DF1 [addressline]上的fuzzywuzzy extracton

2熱度

1回答

自動化文本/模糊匹配的最佳機器學習方法

我對機器學習非常熟悉，我在Python中完成了一些項目。我正在尋找如何解決我認爲可以實現自動化的以下問題的建議。我組織中的數據質量團隊中的用戶每天都會收集已手動輸入的公司名稱（含地址）列表，他必須搜索公司數據庫以查找匹配結果，使用他的判斷 - 即沒有硬性規定。輸入的一個例子是：公司名稱，地址行1，國家如此，用戶實現了公司名稱和將其輸入的搜索工具。他在哪裏得到一份結果列表，並且選擇最佳匹配，

-1熱度

1回答

如何在R中使用正則表達式來創建一個規範化公司名稱的新列？

我有一個公司名稱列的數據框。我想創建一個新的列是名稱的模糊/規範化的版本（可能使用正則表達式來剝離後綴，如「公司，‘公司’和‘有限責任公司’和前綴，如‘’）。 name <- c("Microsoft", "Apple, Inc.", "Youtube, LLC", "Huffington Post") companies <- data.frame(name) 我想公司$ canonica

6熱度

3回答

如何找到大串的最佳擬合子序列？

假設我有一個大字符串和一個子字符串數組，當它們與大字符串相等時（差別很小）。例如（注意字符串之間的細微差別）： large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string" sub_strs

0熱度

1回答

處理大熊貓數據幀（模糊匹配）

我想做模糊匹配，其中我從大數據框（130.000行）的列到列表（400行）的字符串進行匹配。我寫的代碼是在一個小樣本上測試的（匹配3000行到400行）並且工作正常。它太大複製到這裏，但它大致是這樣的： 1）列 2的數據標準化）創建笛卡爾積列和計算Levensthein距離 3）選擇在單獨的得分最高的比賽和商店的large_csv_name「名單。 4）比較'large_csv_names'到'

2熱度

2回答

模糊匹配下一列中同一行的一列中的行

我想根據另一列在一列中查找信息。所以我在一列中有一些詞，在另一列中有完整的句子。我想知道它是否找到這些句子中的單詞。但有時這些詞不一樣，所以我不能使用SQL like函數。因此，我認爲模糊匹配+某種形式的「喜歡」的數據是這樣的功能將是有益的： Names Sentences Airplanes Sarl Airplanes-Sàrl is part of Airplanes-Grou

3熱度

2回答

如何將機器學習應用於模糊匹配

假設我有一個MDM系統（主數據管理），其主要應用是檢測和防止重複記錄。每當銷售代表進入系統中的新客戶時，我的MDM平臺會對現有記錄進行檢查，計算一對單詞或短語或屬性之間的Levenshtein或Jaccard或XYZ距離，考慮權重和係數以及輸出相似度分數等等。您的典型模糊匹配場景。我想知道是否有意義應用機器學習技術來優化匹配輸出，即找到最大精度的重複。而它最有意義的地方在哪裏。優化屬性的