record-linkage

    1熱度

    1回答

    如果我有名字的一個載體,說: a = c("tom", "tommy", "alex", "tom", "alexis", "Alex", "jenny", "Al", "michell") 我想使用levenshteinSim或類似的得到這個矢量中的相似性得分。但是,我不想讓它自我評分。例如,"tom" #1得分爲"tom" #3。並且不要爲"tom" #1反對"tom" #1得分,所以不要

    0熱度

    1回答

    我有兩張表格,包含姓名和地址等客戶信息。 ID Name Full Address 1 Anurag 123 CA USA 5001 2 Mike ABC CA USA 5002 3 Jason ZYZ TX USA 5003 4 Roshan HBC MS USA 5004 5 Tony UYS VT USA 5005 New_ID Name Full Address 111

    -1熱度

    1回答

    我有一個標準記錄重複數據消除任務: 我有許多文本(或其他)字段的記錄,其中一些對應於相同的實體。合併這些記錄是該任務的目標。 這種類型的任務 有一些廣泛使用和簡單的統計方法,如「Probabilistic Record Linkage」。其中一些更精確和更復雜,但利用相同的想法,如https://github.com/datamade/dedupe: 他們嘗試以某種方式衡量每個領域作爲相似性的度量

    1熱度

    1回答

    如何使用模糊匹配大熊貓中檢測到重複行(有效) 如何找到一列與所有其他的人的副本沒有一個巨大的轉換的循環row_i toString(),然後將其與所有其他的?

    0熱度

    3回答

    我想使用https://github.com/datamade/dedupe來刪除python中的一些記錄。看他們的例子 data_d = {} for row in data: clean_row = [(k, preProcess(v)) for (k, v) in row.items()] row_id = int(row['id']) data_d[row_

    2熱度

    1回答

    我對機器學習非常熟悉,我在Python中完成了一些項目。我正在尋找如何解決我認爲可以實現自動化的以下問題的建議。 我組織中的數據質量團隊中的用戶每天都會收集已手動輸入的公司名稱(含地址)列表,他必須搜索公司數據庫以查找匹配結果,使用他的判斷 - 即沒有硬性規定。 輸入的一個例子是: 公司名稱,地址行1,國家 如此,用戶實現了公司名稱和將其輸入的搜索工具。他在哪裏得到一份結果列表,並且選擇最佳匹配,

    -5熱度

    1回答

    我只是問在這裏什麼是在MySQL中重複刪除表的最佳方法? 我與字段id,name,lastname,user_no,birthday,percentage,然後parent_id一個示例表。我想要的是在percentage和parent_id字段中添加一個值,該字段基於哪個記錄是重複的以及它們的相似程度。 我只是要求一種方法。檢查每個領域兩次以檢查比賽是否有效?或者,還有另一種方式嗎?

    3熱度

    2回答

    假設我有一個MDM系統(主數據管理),其主要應用是檢測和防止重複記錄。 每當銷售代表進入系統中的新客戶時,我的MDM平臺會對現有記錄進行檢查,計算一對單詞或短語或屬性之間的Levenshtein或Jaccard或XYZ距離,考慮權重和係數以及輸出相似度分數等等。 您的典型模糊匹配場景。 我想知道是否有意義應用機器學習技術來優化匹配輸出,即找到最大精度的重複。 而它最有意義的地方在哪裏。 優化屬性的

    4熱度

    1回答

    我需要在大型數據集中找到重複項,所以我正在測試dedupe python庫。 我知道它建議用於小數據集,所以我認爲使用好機器可以提高性能。我有一臺具有56 GB RAM的機器,對於具有200000行的數據集,我正在運行類似於"csv_example"的測試。它可以工作,但內存使用率非常低,所以處理(CPU)。 這似乎需要很長時間阻塞階段: INFO:dedupe.blocking:10000, 1

    0熱度

    2回答

    我有來自不同來源的客戶和銷售線索,我需要弄清楚客戶是否已經註冊爲銷售線索。 我使用的匹配12個字段: address1_clear address2_clear address_clear contact_name_clear email invoice_mobile invoice_phone mobile name_clear phone phone2 taxnum