我有點困惑。目前我應該整合我的數據倉庫和Hadoop平臺。到現在爲止,我一直在做傳統的ET。現在的問題是帶Hadoop ETL的數據倉庫
1. How Hadoop will involve into this ETL process ?
2. I need to load my data into SQL server
3. How can I achieve ETL in Hadoop ?
我的HDFS持有平面文件(的.csv)
任何一個能幫助我嗎? 任何想法,歡迎
我有點困惑。目前我應該整合我的數據倉庫和Hadoop平臺。到現在爲止,我一直在做傳統的ET。現在的問題是帶Hadoop ETL的數據倉庫
1. How Hadoop will involve into this ETL process ?
2. I need to load my data into SQL server
3. How can I achieve ETL in Hadoop ?
我的HDFS持有平面文件(的.csv)
任何一個能幫助我嗎? 任何想法,歡迎
在Hadoop中,您可以在HDFS存儲您的DW數據作爲文件。如果你想將你的DW遷移到Hadoop。您可以將現有數據倉庫中的數據傳輸到基於hadoop的DW工具Apache Hive。 ü可以用sqoop端口數據(建立烏爾DW服務器和Hadoop服務器之間的連接與sqoop工作)
可不可以給烏拉圭回合關於第二點,更多的細節?
U可以通過Pig工具實現Hadoop中的ETL。爲了更多的ETL目的,你可以使用Java編寫定製的Pig UDF。
Sqoop是從SQL數據庫到Hadoop DW遷移的非常流行的工具。它確實存在風險,因爲它會針對數據庫啓動MapReduce作業,如果您不小心,可能會產生大量負載。
Hadoop是真的只是通常指的是HDFS(文件系統)的總稱,有時的MapReduce是Hadoop的原處理框架。
您很可能會使用諸如Hive(類似於SQL的查詢引擎用於分析HDFS中的文件)的工具來執行報告。
如果你有興趣在一個基於Web的圖形用戶界面更友好的攝取工具檢查StreamSets Data Collector
一個問題:你爲什麼要在Hadoop的數據倉庫的整合? – mauro