我想了解函數對numpy
數組與h5py dataset
的影響。在我的應用程序中,我正在逐行讀取文本文件,然後在解析數據後,寫入hdf5
文件。什麼是一個很好的方法來實現這一點。我要補充的每個新行成numpy
陣列,並保持調整(增加軸)爲numpy的陣列(最終寫完整numpy的陣列到h5py數據集)或者我應該只是每個新行的數據添加到h5py dataset
直接,因此調整內存中的h5py dataset
。如果我們在每行之後繼續調整大小,resize()
函數如何影響性能?還是應該在每隔100行或1000行後重新調整大小?調整numpy或數據集大小的有效方法?
每個數據集中可能有大約200,000行。
任何幫助表示讚賞。
那些不知道h5py的人,請在添加新行後每次調整numpy的性能以便對它進行評論。 – Alok 2012-08-16 01:05:53
爲什麼不使用'np.fromfile'將整個文件作爲一個numpy數組讀取?你不會得到更快的速度...... – mgilson 2012-08-16 01:14:09
文本文件是我需要解析並轉換成特定格式的原始數據。文件大小約爲2 GB。我正在逐字節處理數據。 – Alok 2012-08-16 01:24:37