我有以下的結構發生了巨大的數據集導入複雜的數據結構與自定義分隔
FIELDA,fieldB,fieldC; fieldD | fieldE,FieldF; fieldG | fieldH,FieldI ...
哪裏:
FIELDA,fieldB和fieldC是應該被導入到單獨的列
串fieldD | fieldE,FieldF; fieldG | fieldH,FieldI是一個數組映射(元素通過分開的(由分號分隔的元素)| )的數組(元素用逗號分隔, 。G。 fieldE,FieldF)
我的問題是,初始數組與字段A,字段B,字段C用分號隔開。我的問題是如何在創建表格時正確設置分隔符。
此人不承認一個數組 - 儘管我提供了一個分號作爲字段分隔
CREATE TABLE string_array(
first_part STRING # this would be to store fieldA,fieldB,fieldC
,second_part ARRAY<STRING> # this would be to store fieldD|fieldE,FieldF;fieldG|fieldH,FieldI and split it by semicolon
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\\u003b'
COLLECTION ITEMS TERMINATED BY '\\u003b'
MAP KEYS TERMINATED BY '|'
STORED AS TEXTFILE;
LOAD DATA LOCAL INPATH '...' INTO TABLE string_array;
任何想法如何使它工作,所以我可以建立在它?提前感謝!
非常感謝。我希望能夠導入數據,因爲預處理需要很多時間。但是,如果它不可避免,那麼必須做... – 2014-11-07 10:22:44