0
我正在嘗試使用s3distcp來compy很多小的gzip文件,但不幸的是不會以gz
擴展名結尾。有s3distcp有一個outputCodec
參數可用於壓縮輸出,但沒有相應的inputCodec
。我試圖用hadoop streaming調用來使用--jobconf
,但它似乎沒有做任何事情(輸出仍然是gzip)。我正在使用的命令是你可以使用帶有壓縮輸入的s3distcp嗎?
hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
--src s3://inputfolder --dest hdfs:///data
任何想法可能會發生什麼?我正在運行AWS EMR AMI-3.9。