1
我在某處讀到Hadoop有一個內置的壓縮和解壓縮支持,但我想它是關於映射器輸出(通過設置一些屬性)?在Hadoop/PIG中壓縮/解壓gzip數據是否透明?
我想知道是否有任何特定的PIG加載/存儲功能可用於讀取壓縮數據或以壓縮格式輸出數據?
我在某處讀到Hadoop有一個內置的壓縮和解壓縮支持,但我想它是關於映射器輸出(通過設置一些屬性)?在Hadoop/PIG中壓縮/解壓gzip數據是否透明?
我想知道是否有任何特定的PIG加載/存儲功能可用於讀取壓縮數據或以壓縮格式輸出數據?
的PigStorage通過檢查文件名處理壓縮輸入:
org.apache.pig.bzip2r.Bzip2TextInputFormat
org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat
- 這擴展o.a.h.mapreduce.TextinputFormat
可以。廣州和敏捷的處理文件如果你有編解碼器安裝輸出通過一些屬性來處理:
output.compression.enabled
- 真/假output.compression.codec
- 要使用的編解碼器的類名(org.apache.hadoop.io.compress.GzipCodec
gzip的)如果你覺得到它,通過PigStorage.java挖掘可能感興趣的你
http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215也給出了一些關於中間壓縮的更多細節 – 2012-03-27 20:37:52