-1
我運行了一個hadoop作業,該作業生成了多個.deflate文件。現在這些文件存儲在S3上。所以,我不能運行hadoop fs -text /somepath
命令它將採取hdfs路徑。現在,我想將多個以.deflate格式存儲在s3上的文件轉換爲一個gzip文件。將多個.deflate文件轉換爲ubuntu中的一個gzip文件
我運行了一個hadoop作業,該作業生成了多個.deflate文件。現在這些文件存儲在S3上。所以,我不能運行hadoop fs -text /somepath
命令它將採取hdfs路徑。現在,我想將多個以.deflate格式存儲在s3上的文件轉換爲一個gzip文件。將多個.deflate文件轉換爲ubuntu中的一個gzip文件
如果您使用GzipCodec改爲使用gzip文件,則可以簡單地將它們連接起來以構成一個大的gzip文件。
如RFC 1952中所述,您可以用gzip標題和預告結束壓縮流。一個固定的10字節標題,以及一個從未壓縮數據計算出來的8字節標尾。因此,您需要對每個.deflate流進行解壓縮,以便計算其CRC-32和未壓縮長度以放入預告片。
但是,我已經有.deflate格式的文件。那麼,我如何將它們轉換爲gzip,這是我的問題。 – Naresh 2014-12-04 08:28:07