在Hive之外聚合是一個更好的選擇嗎？

我有更多的概念問題。我使用Hive來獲取數據，然後我想將所有檢索到的值插入到IBM BigSQL（基本上是DB2）中，以便聚合數據更容易/更快。所以我想在Hive中創建一個視圖，我將使用每晚執行CTAS的方式，以便我可以將表格遷移到db2並完成剩餘的聚合。有沒有更好的做法？我想盡一切辦法在Hive中進行聚合，但速度非常慢。在Hive之外聚合是一個更好的選擇嗎？

感謝您的建議！

來源

2017-08-16 codeBarer

幾個問題來澄清。你多久會運行一次你的程序？你目前的數據是什麼格式？多久改變一次數據？它只是新記錄還是修改了現有記錄？ – hlagos

@lake現在的過程是每天早上運行ETL。現有記錄未被修改。只需從正在進行的事件流中讀取新的JSON數據格式即可。 – codeBarer

你在用什麼發行版？你在做什麼樣的聚合？ – hlagos

考慮到您正在使用Cloudera，是否有理由不在Impala中執行聚合？將json數據轉換爲實木複合地板（如果沒有很多嵌套結構，我會推薦這個）應該不是很貴。取決於您正在進行的聚合類型的另一種替代方法是使用Spark來轉換數據（也將取決於您的許多羣集大小）。我想給你更具體的提示，但不知道你正在做什麼聚合是複雜的

來源

2017-08-17 16:21:44 hlagos

在Hive之外聚合是一個更好的選擇嗎？

回答

相關問題