我正致力於在HDF5表中實施一個相對較大(5,000,000個且不斷增長)的時間系列數據集。我需要一種方法去除它上面的重複,每天一次,每天一次'跑步'。由於我目前的數據檢索過程,在數據檢索過程中寫入重複數據要容易得多,而不是確保沒有進入。如何確保大型HDF5中的唯一行
什麼是從pytable中刪除dups的最佳方法?我所有的閱讀都指向將整個表導入熊貓,並獲得一個獨特值的數據框,並通過每次數據運行重新創建表將其寫回磁盤。然而,這似乎與pytables的觀點相反,並且我不知道整個數據集將會有效地適應內存。我應該補充說,它是定義一個唯一記錄的兩列。
沒有可重複的代碼,但任何人都可以給我pytables數據管理的建議嗎?
非常感謝提前...