2016-09-22 60 views

回答

1

在具有類似結構,以CSV二進制格式序列文件

序列文件存儲數據。與CSV一樣,序列文件也不會將數據與數據一起存儲,因此唯一的模式演變選項會附加新字段。但是,與CSV不同,序列文件確實支持塊壓縮。由於閱讀序列文件的複雜性,它們通常僅用於「空中」數據,例如在一系列MapReduce作業中使用的中間數據存儲。

平面文件

平面文件尚未源自Hadoop的創作者道格切割的Trevni項目的另一個柱狀文件格式。像RC和ORC一樣,Parquet享受壓縮和查詢性能的好處,寫入速度通常比非列式文件格式慢。然而,與RC和ORC文件不同,Parquet serdes支持有限的模式演變。在實木複合地板中,可以在結構的最後添加新的列。目前,Hive和Impala能夠查詢新添加的列,但生態系統中的其他工具(如Hadoop Pig)可能面臨挑戰。實木複合地板由Cloudera支持併爲Cloudera Impala進行了優化。原生Parquet支持正在爲Hadoop生態系統的其他部分快速添加。

關於Parquet文件支持與Hive的一個注意事項... parquet列名稱是小寫字母非常重要。如果您的Parquet文件包含混合大小寫的列名稱,則Hive將無法讀取列,並將使用空值在列上返回查詢,並且不會記錄任何錯誤。與Hive不同,Impala處理混合大小寫的列名稱。一個真正令人困惑的問題,當你遇到我

相關問題