2015-04-02 77 views
0

我有一個關於二進制數據類型的問題。我想爲我的MR作業寫一個Parquet Schema來創建Parquet文件,這與Hive或Impala創建Parquet文件相反。我看到一些二進制類型的引用,我沒有在Parquet中看到實木複合地板二進制數據類型

二進制是BYTE_ARRAY的別名嗎?

也是UTF-8在二進制數據類型上的默認編碼?

回答

3

原始字節作爲固定長度字節數組(FIXED_LEN_BYTE_ARRAY)或作爲可變長度字節數組(BYTE_ARRAY,也稱爲二進制數)存儲在Parquet中。固定值用於具有常量大小的值,如SHA1哈希值。大多數情況下,使用可變長度版本。

字符串被編碼爲具有UTF8類型註釋的可變長度二進制文件,以指示如何將原始字節解釋回字符串。 UTF8是格式中唯一支持的編碼,但並非每個二進制文件都使用UTF8,因爲並非所有二進制字段都存儲字符串數據。