如何確保大型HDF5中的唯一行

我正致力於在HDF5表中實施一個相對較大（5,000,000個且不斷增長）的時間系列數據集。我需要一種方法去除它上面的重複，每天一次，每天一次'跑步'。由於我目前的數據檢索過程，在數據檢索過程中寫入重複數據要容易得多，而不是確保沒有進入。如何確保大型HDF5中的唯一行

什麼是從pytable中刪除dups的最佳方法？我所有的閱讀都指向將整個表導入熊貓，並獲得一個獨特值的數據框，並通過每次數據運行重新創建表將其寫回磁盤。然而，這似乎與pytables的觀點相反，並且我不知道整個數據集將會有效地適應內存。我應該補充說，它是定義一個唯一記錄的兩列。

沒有可重複的代碼，但任何人都可以給我pytables數據管理的建議嗎？

非常感謝提前...

看到這個相關型號的問題：你爲什麼說這是「違背pytables點」 finding a duplicate in a hdf5 pytable with 500e6 rows

？存儲重複是完全可能的。用戶對此負責。

你也可以試試這個：merging two tables with millions of rows in python，在這裏你使用的合併函數只是drop_duplicates()。

2014-01-21 00:41:55 Jeff

回答