2014-03-19 57 views
1

我有點困惑。目前我應該整合我的數據倉庫和Hadoop平臺。到現在爲止,我一直在做傳統的ET。現在的問題是帶Hadoop ETL的數據倉庫

1. How Hadoop will involve into this ETL process ? 
2. I need to load my data into SQL server 
3. How can I achieve ETL in Hadoop ? 

我的HDFS持有平面文件(的.csv)

任何一個能幫助我嗎? 任何想法,歡迎

+0

一個問題:你爲什麼要在Hadoop的數據倉庫的整合? – mauro

回答

0

在Hadoop中,您可以在HDFS存儲您的DW數據作爲文件。如果你想將你的DW遷移到Hadoop。您可以將現有數據倉庫中的數據傳輸到基於hadoop的DW工具Apache Hive。 ü可以用sqoop端口數據(建立烏爾DW服務器和Hadoop服務器之間的連接與sqoop工作)

可不可以給烏拉圭回合關於第二點,更多的細節?

U可以通過Pig工具實現Hadoop中的ETL。爲了更多的ETL目的,你可以使用Java編寫定製的Pig UDF。

+0

你能否提供一些例子 – Backtrack

+0

你能告訴我你需要什麼樣的例子嗎? –

+0

我的要求是將我的平面文件加載到我的DW中,這是MS SQL?我如何實現這一點,我不需要執行轉換和所有的 – Backtrack

0

Sqoop是從SQL數據庫到Hadoop DW遷移的非常流行的工具。它確實存在風險,因爲它會針對數據庫啓動MapReduce作業,如果您不小心,可能會產生大量負載。

Hadoop是真的只是通常指的是HDFS(文件系統)的總稱,有時的MapReduce是Hadoop的原處理框架。

您很可能會使用諸如Hive(類似於SQL的查詢引擎用於分析HDFS中的文件)的工具來執行報告。

如果你有興趣在一個基於Web的圖形用戶界面更友好的攝取工具檢查StreamSets Data Collector