0
我正在加載存儲在磁盤上的數據幀作爲HDF5文件。我使用store.select語句來運行條件並僅返回我感興趣的數據。之後,我得到了數據的列方式。有沒有辦法將兩個步驟結合起來,使得平均值基本上在磁盤上執行,並且整個數據不會同時加載到內存中?從hdf5中選擇應用功能(例如,意思是)
謝謝! -Kaushik
我正在加載存儲在磁盤上的數據幀作爲HDF5文件。我使用store.select語句來運行條件並僅返回我感興趣的數據。之後,我得到了數據的列方式。有沒有辦法將兩個步驟結合起來,使得平均值基本上在磁盤上執行,並且整個數據不會同時加載到內存中?從hdf5中選擇應用功能(例如,意思是)
謝謝! -Kaushik
理論上是的,見here。在實踐中,現在不是。您必須使用store._handle
來獲取所需的數據,然後下載到pytables。例如,您還必須處理nan
。
謝謝傑夫!當我擁有同質數據時,這也鼓勵我研究數學。 –
這是關於這個(以及一些策略)的公開問題:https://github.com/pydata/pandas/issues/3202。它的重要性,並不太難。 – Jeff