我有一個大的3D HDF5數據集,它表示某個變量的位置(X,Y)和時間。接下來,我有一個2D numpy數組,其中包含相同(X,Y)位置的分類。我想要實現的是,我可以從3D HDF5數據集中提取屬於2D數組中某個類的所有時間序列。基於2D條件對大型3D HDF5數據集進行子集化索引
這裏是我的例子:
import numpy as np
import h5py
# Open the HDF5 dataset
NDVI_file = 'NDVI_values.hdf5'
f_NDVI = h5py.File(NDVI_file,'r')
NDVI_data = f_NDVI["NDVI"]
# See what's in the dataset
NDVI_data
<HDF5 dataset "NDVI": shape (1319, 2063, 53), type "<f4">
# Let's make a random 1319 x 2063 classification containing class numbers 0-4
classification = np.random.randint(5, size=(1319, 2063))
現在,我們有我們的3D數據集HDF5和2D分類。讓我們來看看該課下數下降像素「3」
# Look for the X,Y locations that have class number '3'
idx = np.where(classification == 3)
這將返回我大小2元組包含X,符合條件y對,在我隨便舉個例子對的量是544433 。現在該如何使用idx
變量創建一個包含分類類號爲「3」的像素的544433時間序列的二維大小數組(544433,53)?
我做了一些測試用花哨的索引和純3D numpy的陣列和這個例子會工作得很好:
subset = 3D_numpy_array[idx[0],idx[1],:]
然而,HDF5的數據集過大轉換爲numpy的陣列;當我試圖直接在HDF5數據集使用相同的索引方法:
# Try to use fancy indexing directly on HDF5 dataset
NDVI_subset = np.array(NDVI_data[idx[0],idx[1],:])
這引發了我的錯誤:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "h5py\_objects.pyx", line 54, in h5py._objects.with_phil.wrapper (C:\aroot\work\h5py\_objects.c:2584)
File "h5py\_objects.pyx", line 55, in h5py._objects.with_phil.wrapper (C:\aroot\work\h5py\_objects.c:2543)
File "C:\Users\vtrichtk\AppData\Local\Continuum\Anaconda2\lib\site-packages\h5py\_hl\dataset.py", line 431, in __getitem__
selection = sel.select(self.shape, args, dsid=self.id)
File "C:\Users\vtrichtk\AppData\Local\Continuum\Anaconda2\lib\site-packages\h5py\_hl\selections.py", line 95, in select
sel[args]
File "C:\Users\vtrichtk\AppData\Local\Continuum\Anaconda2\lib\site-packages\h5py\_hl\selections.py", line 429, in __getitem__
raise TypeError("Indexing elements must be in increasing order")
TypeError: Indexing elements must be in increasing order
我想另一件事是np.repeat
在第三分類數組用於創建與HDF5數據集形狀相匹配的3D數組。比idx
變量換成大小3元組:
classification_3D = np.repeat(np.reshape(classification,(1319,2063,1)),53,axis=2)
idx = np.where(classification == 3)
但除了拋出完全相同的錯誤下面的語句:
NDVI_subset = np.array(NDVI_data[idx])
這是因爲HDF5數據集的工作方式不同與純numpy的陣列?該文件確實說:「選擇座標必須按遞增順序給出」
有沒有人在這種情況下有一個建議,我怎麼可以得到這個工作,而不必讀取完整的HDF5數據集到內存中(這是行不通的)? 非常感謝!
什麼'h5py' DOC說的晚期或花哨的索引?我會研究這個,然後建立一個更小的測試用例,我可以在移動兩個3d之前測試二維數組上的這種索引。我可以在哪裏打印所有的值。 H5在編制索引時的確有可能受到限制。 – hpaulj
http://docs.h5py.org/zh/latest/high/dataset.html#fancy-indexing – hpaulj