2012-03-27 138 views
1

我在某處讀到Hadoop有一個內置的壓縮​​和解壓縮支持,但我想它是關於映射器輸出(通過設置一些屬性)?在Hadoop/PIG中壓縮/解壓gzip數據是否透明?

我想知道是否有任何特定的PIG加載/存儲功能可用於讀取壓縮數據或以壓縮格式輸出數據?

回答

6

的PigStorage通過檢查文件名處理壓縮輸入:

  • *操作.bz2/* .BZ - org.apache.pig.bzip2r.Bzip2TextInputFormat
  • 一切其他人使用org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat - 這擴展o.a.h.mapreduce.TextinputFormat可以。廣州和敏捷的處理文件如果你有編解碼器安裝

輸出通過一些屬性來處理:

  • output.compression.enabled - 真/假
  • output.compression.codec - 要使用的編解碼器的類名(org.apache.hadoop.io.compress.GzipCodec gzip的)

如果你覺得到它,通過PigStorage.java挖掘可能感興趣的你

+0

http://my.safaribooksonline.com/book/-/9781449317881/8dot-making-pig-fly/id2907215也給出了一些關於中間壓縮的更多細節 – 2012-03-27 20:37:52