我正在評估hadoop &配置單元(& impala)作爲大型數據倉庫複製的組合。我已經設置了一個版本,並且在讀取權限方面表現非常出色。Hadoop&Hive作爲倉庫:每日數據交付
有人可以給我任何提示什麼概念應該用於日常數據交付到表? 我根據我投入HDFS文件在蜂巢的表。但現在我有一個每天在新的交易數據來對。 如何添加他們的TI表中蜂巢。 插入是不可能的。 HDFS不能追加。那麼我需要遵循什麼gernal概念。
任何建議或方向文檔理解。
此致敬禮!
我正在評估hadoop &配置單元(& impala)作爲大型數據倉庫複製的組合。我已經設置了一個版本,並且在讀取權限方面表現非常出色。Hadoop&Hive作爲倉庫:每日數據交付
有人可以給我任何提示什麼概念應該用於日常數據交付到表? 我根據我投入HDFS文件在蜂巢的表。但現在我有一個每天在新的交易數據來對。 如何添加他們的TI表中蜂巢。 插入是不可能的。 HDFS不能追加。那麼我需要遵循什麼gernal概念。
任何建議或方向文檔理解。
此致敬禮!
Inserts are not possible
插入是可能的,就像你可以創建一個新表,從表中的新數據插入到舊桌子。
但是簡單的解決方法是用下面的命令將文件load data轉換成Hive表。
load data inpath '/filepath' [overwrite] into table tablename;
如果使用則用新數據覆蓋,否則它只是附加replced只有現有數據。
您甚至可以通過創建shell腳本來安排腳本。
Hive允許將數據附加到表中 - HDFS中發生這種情況的底層實現無關緊要。有幾件事你可以追加數據:
INSERT
- 您可以將行追加到現有的表。INSERT OVERWRITE
- 如果您必須處理數據,則可以執行INSERT OVERWRITE
來重寫表或分區。LOAD DATA
- 您可以使用它將數據批量插入表中,並可以選擇使用OVERWRITE
關鍵字來清除任何現有數據。分區是偉大的,如果你知道你將要執行基於日期的搜索,讓您使用選項1,2的能力,& 3在表或分區級別。
+1分區蜂巢表! – Olaf 2013-04-25 14:16:12
+1個好主意 – Backtrack 2014-03-24 05:46:57