0
我想將SegY文件加載到3節點Apache Hadoop集羣的HDFS上。使用自定義塊結構將文件加載到HDFS
總之,SEGY文件包括:
- 3200字節文本標題
- 400字節二進制標頭
- 可變字節數據
99.99 %文件的大小是由於變量字節d這是數以千計的連續痕跡的集合。對於任何SegY文件有意義,它必須具有文本頭+二進制頭+至少一個數據的軌跡。 我想要實現的是將大型SegY文件拆分到Hadoop集羣上,以便在每個節點上都可以使用較小的SegY文件進行本地處理。
的情況如下:
- 的SEGY文件的大小(以上10GB)大,並且NameNode的機器的本地文件系統上擱置
- 該文件是要在分割中的每個節點具有帶有嚴格結構的小SEGY文件這樣的方式的節點 - 3200個字節文本標題 + 400字節二進制標頭 +可變字節數據 如顯而易見的,我不能盲目使用FSDataOutputStream或hadoop的FS -copyFromLocal因爲這可能無法確保它們需要更大的文件塊的格式
我一直在使用它一段時間,但我不想使用它(它使用緊縮庫,它基於Google FlumeJava等) - 我只是想使用普通Hadoop將文件拆分爲可選的其他罐子。 –