fuzzy-comparison

    1熱度

    1回答

    我想將R中的模糊查找邏輯應用於下面鏈接中提到的數據集,並希望獲得與我們通過SSIS獲得的結果相同的結果。 https://www.codeproject.com/Tips/528243/SSIS-Fuzzy-lookup-for-cleaning-dirty-data 請如在以上提到的鏈接源的多於一個柱被匹配到目標的多個列的術語解釋。查找表的上述鏈接(First_Name,Last_Name)與R

    0熱度

    1回答

    我正在爲以下示例尋找模糊字符串算法:給定現有名稱的數據庫,如果匹配的準確性高於輸入閾值,則將匹配輸入匹配到最匹配的名稱90%),或以其他方式NA database = [James Bond, Michael Smith] 輸入 James L Bond->James Bond JBondL->James Bond Bond,James->James Bond BandJamesk->J

    0熱度

    1回答

    我想做什麼; 我有兩個表有兩個地址列,都存儲爲text我想創建一個視圖返回匹配的行。 我試過了; 我已經創建和索引的列和表如下; CREATE INDEX idx_table1_fulladdress ON table1 (LOWER(fulladdress_ppd)); 然後運行以下; CREATE OR REPLACE VIEW view_adresscheck AS SELECT --f

    2熱度

    1回答

    我有兩個大型數據集,我讀入Pandas DataFrames(分別爲〜20K行和〜40K行)。當我嘗試在地址字段上使用pandas.merge完全合併這兩個DF時,與行數相比,我得到了一個微不足道的匹配數。所以我想我會嘗試模糊字符串匹配,看看它是否改善了輸出匹配的數量。 我嘗試在DF1 [20K行]中創建一個新列,這是將DF1 [addressline]上的fuzzywuzzy extracton

    2熱度

    1回答

    我對機器學習非常熟悉,我在Python中完成了一些項目。我正在尋找如何解決我認爲可以實現自動化的以下問題的建議。 我組織中的數據質量團隊中的用戶每天都會收集已手動輸入的公司名稱(含地址)列表,他必須搜索公司數據庫以查找匹配結果,使用他的判斷 - 即沒有硬性規定。 輸入的一個例子是: 公司名稱,地址行1,國家 如此,用戶實現了公司名稱和將其輸入的搜索工具。他在哪裏得到一份結果列表,並且選擇最佳匹配,

    -1熱度

    1回答

    我有一個公司名稱列的數據框。我想創建一個新的列是名稱的模糊/規範化的版本(可能使用正則表達式來剝離後綴,如「公司,‘公司’和‘有限責任公司’和前綴,如‘’)。 name <- c("Microsoft", "Apple, Inc.", "Youtube, LLC", "Huffington Post") companies <- data.frame(name) 我想公司$ canonica

    6熱度

    3回答

    假設我有一個大字符串和一個子字符串數組,當它們與大字符串相等時(差別很小)。 例如(注意字符串之間的細微差別): large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string" sub_strs

    0熱度

    1回答

    我想做模糊匹配,其中我從大數據框(130.000行)的列到列表(400行)的字符串進行匹配。 我寫的代碼是在一個小樣本上測試的(匹配3000行到400行)並且工作正常。它太大複製到這裏,但它大致是這樣的: 1)列 2的數據標準化)創建笛卡爾積列和計算Levensthein距離 3)選擇在單獨的得分最高的比賽和商店的large_csv_name「名單。 4)比較'large_csv_names'到'

    2熱度

    2回答

    我想根據另一列在一列中查找信息。所以我在一列中有一些詞,在另一列中有完整的句子。我想知道它是否找到這些句子中的單詞。但有時這些詞不一樣,所以我不能使用SQL like函數。因此,我認爲模糊匹配+某種形式的「喜歡」的數據是這樣的功能將是有益的: Names Sentences Airplanes Sarl Airplanes-Sàrl is part of Airplanes-Grou

    3熱度

    2回答

    假設我有一個MDM系統(主數據管理),其主要應用是檢測和防止重複記錄。 每當銷售代表進入系統中的新客戶時,我的MDM平臺會對現有記錄進行檢查,計算一對單詞或短語或屬性之間的Levenshtein或Jaccard或XYZ距離,考慮權重和係數以及輸出相似度分數等等。 您的典型模糊匹配場景。 我想知道是否有意義應用機器學習技術來優化匹配輸出,即找到最大精度的重複。 而它最有意義的地方在哪裏。 優化屬性的