2015-08-26 78 views
0

我正在嘗試使用s3distcp來compy很多小的gzip文件,但不幸的是不會以gz擴展名結尾。有s3distcp有一個outputCodec參數可用於壓縮輸出,但沒有相應的inputCodec。我試圖用hadoop streaming調用來使用--jobconf,但它似乎沒有做任何事情(輸出仍然是gzip)。我正在使用的命令是你可以使用帶有壓縮輸入的s3distcp嗎?

hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \ 
      --src s3://inputfolder --dest hdfs:///data 

任何想法可能會發生什麼?我正在運行AWS EMR AMI-3.9。

回答