2013-04-20 32 views
0

我正在評估hadoop &配置單元(& impala)作爲大型數據倉庫複製的組合。我已經設置了一個版本,並且在讀取權限方面表現非常出色。Hadoop&Hive作爲倉庫:每日數據交付

有人可以給我任何提示什麼概念應該用於日常數據交付到表? 我根據我投入HDFS文件在蜂巢的表。但現在我有一個每天在新的交易數據來對。 如何添加他們的TI表中蜂巢。 插入是不可能的。 HDFS不能追加。那麼我需要遵循什麼gernal概念。

任何建議或方向文檔理解。

此致敬禮!

回答

1
Inserts are not possible 

插入是可能的,就像你可以創建一個新表,從表中的新數據插入到舊桌子。

但是簡單的解決方法是用下面的命令將文件load data轉換成Hive表。

load data inpath '/filepath' [overwrite] into table tablename; 

如果使用則用新數據覆蓋,否則它只是附加replced只有現有數據。

您甚至可以通過創建shell腳本來安排腳本。

+0

+1個好主意 – Backtrack 2014-03-24 05:46:57

2

Hive允許將數據附加到表中 - HDFS中發生這種情況的底層實現無關緊要。有幾件事你可以追加數據:

  1. INSERT - 您可以將行追加到現有的表。
  2. INSERT OVERWRITE - 如果您必須處理數據,則可以執行INSERT OVERWRITE來重寫表或分區。
  3. LOAD DATA - 您可以使用它將數據批量插入表中,並可以選擇使用OVERWRITE關鍵字來清除任何現有數據。
  4. Partition your data
  5. 將數據裝載到一個新表,交換分區

分區是偉大的,如果你知道你將要執行基於日期的搜索,讓您使用選項1,2的能力,& 3在表或分區級別。

+0

+1分區蜂巢表! – Olaf 2013-04-25 14:16:12