我使用配置單元(與外部表)處理存儲在亞馬遜S3上的數據。Hive Table添加分區以加載所有子目錄
我的數據被劃分如下: group/team/dt/
(例如,數據文件可以被存儲在一個路徑group=myGroup/team=myTeam/dt=20120603
)
我想處理用於幾個團隊數據(在不同的基團)。 由於RCOVER PARTITIONS需要很長時間,因此我希望將基於組和團隊值的多個分區添加到配置單元表(即給定該團隊中所有可用日期的組和團隊負載數據)。
我正在尋找的功能是:
CREATE EXTERNAL TABLE myData(
attr1 string, attr2 string, attr3 string)
PARTITIONED BY (group string, team string, dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://myBucket/${DATA_ROOT_DIR}';
-- Add paritions without specifying values for dt
ALTER TABLE myData ADD PARTITION (group='group1',team='team1') ;
ALTER TABLE myData ADD PARTITION (group='group2',team='team2') ;
謝謝!
問題是關於恢復/添加分區而不是動態創建分區。根據問題,分區已經存在,他希望有選擇地恢復某些分區。 –