2013-08-28 82 views
1

我有一個約1.85 GB的數據集,其中包含h5文件,我需要使用hadoop處理這些文件,因爲我可能需要將這些文件轉換爲文本或csv 。 有沒有什麼辦法hadoop可以讀取h5文件?或任何好的在線工具將h5文件轉換爲csv或文本文件?或者任何人可以給我一個鏈接,我可以下載包含文本或csv文件的大數據集?將h5文件轉換爲csv文件或文本文件進行數據處理

在此先感謝

+1

h5dump(http://www.hdfgroup.org/HDF5/doc /RM/Tools.html#Tools-Dump)會將HDF5文件轉儲爲ASCII或XML,但輸出仍然是分層的,而不是像CSV文件那樣的表格。是的,有一些工作正在將HDF5和Hadoop集成在一起,請使用您最喜愛的搜索引擎來查找它。 –

+0

您是否嘗試過使用R/MATLAB或C/C++來閱讀內容? R和MATLAB提供csv輸出;用C/C++你將使用fprintf/cout。 –

回答

0

你試過OPeNDAP蹄兔服務器hdf5_handler模​​塊?

例如,從樣品HDF5文件[1],你可以得到下面的ASCII數據[2]:

Dataset: grid_1_2d.h5 
temperature[0], 10, 10, 10, 10, 10, 10, 10, 10 
temperature[1], 11, 11, 11, 11, 11, 11, 11, 11 
temperature[2], 12, 12, 12, 12, 12, 12, 12, 12 
temperature[3], 13, 13, 13, 13, 13, 13, 13, 13 
... 

與hdf5_handler OPeNDAP蹄兔服務器是一個偉大的工具/服務,因爲你可以選擇(和子集)來自HDF5文件的數據集很容易使用HTML格式[3]。您可以從[4]中找到有關OPeNDAP hdf5_handler的詳細信息。

[1] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5

[2] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.ascii

[3] http://eosdap.hdfgroup.org:8080/opendap/data/hdf5/grid_1_2d.h5.html

[4] http://hdfeos.org/software/hdf5_handler.php

相關問題