python-dedupe

    0熱度

    3回答

    我想使用https://github.com/datamade/dedupe來刪除python中的一些記錄。看他們的例子 data_d = {} for row in data: clean_row = [(k, preProcess(v)) for (k, v) in row.items()] row_id = int(row['id']) data_d[row_

    4熱度

    1回答

    我需要在大型數據集中找到重複項,所以我正在測試dedupe python庫。 我知道它建議用於小數據集,所以我認爲使用好機器可以提高性能。我有一臺具有56 GB RAM的機器,對於具有200000行的數據集,我正在運行類似於"csv_example"的測試。它可以工作,但內存使用率非常低,所以處理(CPU)。 這似乎需要很長時間阻塞階段: INFO:dedupe.blocking:10000, 1