在大數據集中檢測文本重複的高效算法

我正在檢測大約500萬個地址的列表中的重複項，並且想知道是否針對這種目的的高效算法達成了共識。我查看了Gitbub上的Dedupe庫（https://github.com/datamade/dedupe），但基於文檔，我不清楚這會很好地擴展到大型應用程序。另外，我只是想根據文本相似性來定義重複項 - 已經對地址進行了大量清理。我一直在使用Levenshtein距離的粗糙方法，但想知道對於大型數據集是否有更有效的方法。在大數據集中檢測文本重複的高效算法

感謝，

來源

2016-07-04 Ryan

如果排序不成問題，只需按字典順序快速排序數據。刪除重複然後變得微不足道。 –

重複數據刪除應罰款爲大小的數據。

Michael Wick和Beka Steorts已經有一些出色的工作，比重複數據刪除具有更好的複雜性。

來源

2016-07-04 18:50:19 fgregg

感謝您的有用鏈接！ – Ryan

在大數據集中檢測文本重複的高效算法

回答

相關問題