我想準備樣本數據,作爲以拼塊格式存儲的配置單元表進行測試。表是這樣的:批量插入數百萬記錄使用配置單元sql配置單元?
hive> CREATE TABLE exps (sn STRING, buildNum STRING, shortProdName
STRING, userIV STRING, cfs STRUCT<version : STRING, name : STRING,
objArray : ARRAY<STRUCT<id : STRING, properties : INT>> >) STORED AS PARQUET;
然後我寫了一個SQL文件說:「sample.sql」,其中包含數以百萬計的SQL INSERT命令行。
$ /opt/hive-0.13.1/bin/hive -f sample.sql
這將導致蜂巢開始大量的地圖,減少就業機會,並通過一個執行一個,這是很慢。
所以我的問題是:有沒有更好的方法來做到這一點?
sample.sql包含什麼? – 2014-11-06 08:50:27
大量插入行如下所示:INSERT INTO TABLE EXPS select'「0017C5CAE03A''''4.0.3''''TZ-205''''keu3zm4ctkzjweh8'',named_struct('Version','1' ,'name','Default','objArray',array(named_struct('id','WLAN','properties',50973,'ZoneType','SonicPointProfHandle',0),named_struct('id', 'WAN','properties',50973,'ZoneType',1,'SonicPointProfHandle',0))); – Jacky 2014-11-06 08:59:47