4
爲了生成一些摘要數字,我們定期將數據導入到Hive。目前,我們正在使用CSV文件格式,其佈局如下:通過時間戳記分區的表格
operation,item,timestamp,user,marketingkey
目前,我們正在執行在分組時間戳字段的日期(YYYY-MM-DD)的幾個疑問。
正在導入的文件有時會持續更多的日子,我想以分區方式存儲它。有沒有辦法用蜂巢做到這一點,我有建基於以下DDL表:
CREATE TABLE
partitionedTable (name string)
PARTITIONED BY (time bigint)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
數據加載中喜歡做:
LOAD DATA LOCAL INPATH
'/home/spaeth/tmp/hadoop-billing-data/extracted/testData.csv'
INTO TABLE partitionedTable PARTITION(time='2013-05-01');
但我想那個蜂巢應用根據正在導入的文件中的字段以自動方式進行分區。例如:
login,1,1370793184,user1,none --> stored to partition 2013-06-09
login,2,1360793184,user1,none --> stored to partition 2013-02-13
login,1,1360571184,user2,none --> stored to partition 2013-02-11
buy,2,1360501184,user2,key1 --> stored to partition 2013-02-10