2
我正在以文本格式在外部表格上使用配置單元。我每隔一小時填寫一張表,但我按月對錶進行分區(數據集相對較小)。每小時我想將新數據插入一些分區。在新文件中插入結果
INSERT INTO子句導致在包含舊數據的現有分區中創建新文件。這種方式在本月底我將在每個分區中有大約700個小文件。
HIVE是否有辦法將數據追加到分區中的舊文件(不使用舊數據上的UNION ALL)?
我正在以文本格式在外部表格上使用配置單元。我每隔一小時填寫一張表,但我按月對錶進行分區(數據集相對較小)。每小時我想將新數據插入一些分區。在新文件中插入結果
INSERT INTO子句導致在包含舊數據的現有分區中創建新文件。這種方式在本月底我將在每個分區中有大約700個小文件。
HIVE是否有辦法將數據追加到分區中的舊文件(不使用舊數據上的UNION ALL)?
不幸的是,這在當前是不可能的。希望隨着補丁文件追加補丁得到更多的牽引力,它最終將成爲追加到現有文件的新功能。
我認爲這是Hive的主要缺點之一....特別是當你開始處理更小的插入。