假設我有一個MDM系統(主數據管理),其主要應用是檢測和防止重複記錄。如何將機器學習應用於模糊匹配
每當銷售代表進入系統中的新客戶時,我的MDM平臺會對現有記錄進行檢查,計算一對單詞或短語或屬性之間的Levenshtein或Jaccard或XYZ距離,考慮權重和係數以及輸出相似度分數等等。
您的典型模糊匹配場景。
我想知道是否有意義應用機器學習技術來優化匹配輸出,即找到最大精度的重複。
而它最有意義的地方在哪裏。
- 優化屬性的權重?
- 通過預測匹配結果來增加算法的置信度?
- 瞭解否則我會配置到算法中的匹配規則?
- 別的東西?
還有關於這個話題的this excellent answer,但我不太清楚這個傢伙是否真的使用了ML。
另外我的理解是,加權模糊匹配已經是一個很好的解決方案,甚至可能從財務角度來看,因爲無論何時您部署這樣的MDM系統,您都必須進行一些分析和預處理,無論是手動編碼匹配規則或訓練ML算法。
所以我不確定ML的加入會代表一個重要的價值主張。
任何想法表示讚賞。
我的直覺是,你將獲得的增量收益並不合理。有趣的是,使用自然語言處理/理解在搜索可能的重複項時提供額外的上下文,但這不會是一個小項目! – ImDarrenG
如果你確實追求這個項目,你需要注意的一件事就是你的任務本質上是二元結果(匹配vs不匹配),再加上潛在的不平衡數據集(比匹配更多的不匹配)。你可能會得到一臺看起來非常準確的機器,但實際上只是告訴你你已經知道了什麼。 – ImDarrenG
你在談論過度訓練集,我想。這是潛在的問題之一,使我不敢在這樣的系統中引入ML。 – TXV