2015-12-03 141 views
0

是否有任何Serde可用於支持具有Unicode字符的配置單元表。我們可能會以UTF-8,UTF-18和UTF-32格式存檔。只是我們正在尋找支持日語,中文等不同語言的配置表。我們應該可以將不同的語言數據加載到配置單元表Hive支持Unicode字符

回答

0

Hive只能讀取和寫入UTF-8文本文件。
對於其他字符集,應將其轉換爲UTF-8。
語法轉換

hive> CREATE TABLE mytable(name, datatype) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES("serialization.encoding"='FORMAT'); 

轉換可以用iconv做,但它僅支持文件比16G小。 語法:

>iconv -f encoding -t encoding inputfile