我正在檢測大約500萬個地址的列表中的重複項,並且想知道是否針對這種目的的高效算法達成了共識。我查看了Gitbub上的Dedupe庫(https://github.com/datamade/dedupe),但基於文檔,我不清楚這會很好地擴展到大型應用程序。另外,我只是想根據文本相似性來定義重複項 - 已經對地址進行了大量清理。我一直在使用Levenshtein距離的粗糙方法,但想知道對於大型數據集是否有更有效的方法。在大數據集中檢測文本重複的高效算法
感謝,
我正在檢測大約500萬個地址的列表中的重複項,並且想知道是否針對這種目的的高效算法達成了共識。我查看了Gitbub上的Dedupe庫(https://github.com/datamade/dedupe),但基於文檔,我不清楚這會很好地擴展到大型應用程序。另外,我只是想根據文本相似性來定義重複項 - 已經對地址進行了大量清理。我一直在使用Levenshtein距離的粗糙方法,但想知道對於大型數據集是否有更有效的方法。在大數據集中檢測文本重複的高效算法
感謝,
如果排序不成問題,只需按字典順序快速排序數據。刪除重複然後變得微不足道。 –