我們正在導入第三方應用程序 和 的客戶記錄,同時與另一個接口進行交互,如果找不到客戶匹配,我們正在插入新客戶。查找帶有特殊字符和其他字符的重複記錄
如果沒有找到確切的客戶匹配,則客戶得到重複。
現在有沒有辦法手抖接口兩者之上,並得到正確的客戶
所以現在我們需要開發工具來刪除重複的客戶
有一個人可以請建議這將是最好的實現這一目標的方法。
Levenshtein距離可能是一種選擇?其他?
在性能方面也因爲我們有超過5000個客戶
的例子,我們需要處理的
Customer 1 - abcsÿdesλ
Customer 2 - abcsfdesd
Customer 3 - úbcsfdμsd
以上所有的客戶是相同的,需要合併爲一個。
我們需要給客戶比較像名字,姓氏等
請指教,提前感謝至少5場的基礎。
感謝您的反饋 但有大約5000條記錄比較1場4999次需要大約3分鐘,這意味着與5個領域需要15分鐘。 任何改善性能的選項。 –
@KeshavdasM如果這是一次性操作,15分鐘聽起來不是很長時間。您絕對不應該在需要定期反覆執行此操作的情況下創建解決方案。完成一次,將結果放入一個新的數據庫中,然後僅使用該數據庫。另外,還有一件事:如果您可以通過除名字之外的其他信息對您的記錄進行分組,也許您只能依靠組內的比較來進行比較?這可能會顯着減少比較次數... – Kjartan
謝謝,正是這樣做,將濾波器應用於其他參數,最後使用Levenshtein算法精確地找到匹配 –