2013-11-15 23 views
0

我正在加載存儲在磁盤上的數據幀作爲HDF5文件。我使用store.select語句來運行條件並僅返回我感興趣的數據。之後,我得到了數據的列方式。有沒有辦法將兩個步驟結合起來,使得平均值基本上在磁盤上執行,並且整個數據不會同時加載到內存中?從hdf5中選擇應用功能(例如,意思是)

謝謝! -Kaushik

回答

1

理論上是的,見here。在實踐中,現在不是。您必須使用store._handle來獲取所需的數據,然後下載到pytables。例如,您還必須處理nan

+0

謝謝傑夫!當我擁有同質數據時,這也鼓勵我研究數學。 –

+1

這是關於這個(以及一些策略)的公開問題:https://github.com/pydata/pandas/issues/3202。它的重要性,並不太難。 – Jeff