2016-07-04 29 views
1

我正在檢測大約500萬個地址的列表中的重複項,並且想知道是否針對這種目的的高效算法達成了共識。我查看了Gitbub上的Dedupe庫(https://github.com/datamade/dedupe),但基於文檔,我不清楚這會很好地擴展到大型應用程序。另外,我只是想根據文本相似性來定義重複項 - 已經對地址進行了大量清理。我一直在使用Levenshtein距離的粗糙方法,但想知道對於大型數據集是否有更有效的方法。在大數據集中檢測文本重複的高效算法

感謝,

+1

如果排序不成問題,只需按字典順序快速排序數據。刪除重複然後變得微不足道。 –

回答

1

重複數據刪除應罰款爲大小的數據。

Michael WickBeka Steorts已經有一些出色的工作,比重複數據刪除具有更好的複雜性。

+0

感謝您的有用鏈接! – Ryan