2017-06-02 62 views
-1

目前,我們正在使用傳統數據倉庫ETL工具IBM DataStage。我們希望遷移這些工作。這些工作主要包括連接和轉換來派生事實表。哪種技術可以更好地遷移這些工作?我們在使用ETL的Impala查詢時使用hue oozie,我們是否應該將spark sql用於ETL而不是Impala查詢?Spark SQL vs Impala對於ETL

回答

0

如何[Rü實現2型等。海夫,黑斑羚等,至於我整個大數據堆棧是無用的督促ENV

ü不僅追加數據,但大量更新加載如2型數據。 進行數據更正需要大量的特別查詢,更新,刪除插入。 從support/dev團隊運行大量adhoc查詢以查找結果
差異等 以上所有3點都使這個堆棧無用。

的使用情況是 大量的數據很多,其中輸出是一些估計不正確,一個大的FAT表,使得刪除和下降或非結構化數據