2017-08-16 30 views
0

我有更多的概念問題。我使用Hive來獲取數據,然後我想將所有檢索到的值插入到IBM BigSQL(基本上是DB2)中,以便聚合數據更容易/更快。所以我想在Hive中創建一個視圖,我將使用每晚執行CTAS的方式,以便我可以將表格遷移到db2並完成剩餘的聚合。 有沒有更好的做法? 我想盡一切辦法在Hive中進行聚合,但速度非常慢。在Hive之外聚合是一個更好的選擇嗎?

感謝您的建議!

+0

幾個問題來澄清。你多久會運行一次你的程序?你目前的數據是什麼格式?多久改變一次數據?它只是新記錄還是修改了現有記錄? – hlagos

+0

@lake現在的過程是每天早上運行ETL。現有記錄未被修改。只需從正在進行的事件流中讀取新的JSON數據格式即可。 – codeBarer

+0

你在用什麼發行版?你在做什麼樣的聚合? – hlagos

回答

1

考慮到您正在使用Cloudera,是否有理由不在Impala中執行聚合?將json數據轉換爲實木複合地板(如果沒有很多嵌套結構,我會推薦這個)應該不是很貴。取決於您正在進行的聚合類型的另一種替代方法是使用Spark來轉換數據(也將取決於您的許多羣集大小)。我想給你更具體的提示,但不知道你正在做什麼聚合是複雜的

相關問題