0
我運行Hadoop的數據流作業,像這樣:Hadoop的流產生,儘管mapred.output.compress無壓縮文件=真
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar
-Dmapred.reduce.tasks=16
-Dmapred.output.compres=true
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec
-input foo
-output bar
-mapper "python zot.py"
-reducer /bin/cat
我得到其中包含正確的數據輸出目錄16個文件,但這些文件不壓縮:
$ hadoop fs -get bar/part-00012
$ file part-00012
part-00012: ASCII text, with very long lines
- 爲什麼
part-00012
不壓縮? - 如何將我的數據集拆分爲一個小數字(比如16個)gzip壓縮文件?
PS。另見「Using gzip as a reducer produces corrupt data」
PPS。這是用於vw。
PPPS。我想我可以做hadoop fs -get
,gzip
,hadoop fs -put
,hadoop fs -rm
16倍,但是這看起來像是一種非同向的方式。