2016-12-19 146 views
6

我有一個帶有幾個壓縮CSV文件(利用日誌)的S3存儲桶。我想用雅典娜查詢這些數據,但輸出完全亂碼。亞馬遜雅典娜和壓縮的S3文件

看來雅典娜試圖解析zip文件而不先解壓縮它們。是否可以強制Hive將我的文件識別爲壓縮數據?

回答

12

對於雅典娜壓縮被支撐,但是支持的格式是

  • 斯納皮(.snappy)
  • zlib的(操作.bz2)
  • GZIP(。廣州)

那些格式通過它們的文件名後綴進行檢測。如果後綴不匹配,則閱讀器不解碼內容。 我用一個test.csv.gz文件測試了它,它馬上就能正常工作。因此,請嘗試將壓縮文件從zip壓縮文件更改爲gzip,並且它應該可以正常工作

+0

謝謝Jens。我擔心這可能是答案。我無法控制此存儲桶中的格式,因此我需要安排一項工作,以編程方式解壓縮並將其存儲在別處。 – MattY