2013-10-04 82 views
0

我正在將SSIS解決方案轉換爲Hadoop以便在數據倉庫中進行ETL處理。從Hadoop端的關係數據庫中查找數據

我預期的系統:
ETL - 登陸&分期(Hadoop的)----把數據--->數據倉庫(MySQL的)

的問題是:在變換句話,我需要從hadoop端查找MySQL數據(豬或mapreduce作業)。有兩種解決方案:
1st:克隆所有表需要從MySQL查找到Hadoop。這意味着我們需要維護2個地方的數據。
2nd:直接查詢到MySQL。我擔心很多連接到MySQL服務器。

這個問題的解決方案/最佳實踐是什麼?還有其他解決方案嗎?

回答

1

您將不得不在Hadoop中對維表進行一些表示。根據您如何執行維度數據的ETL的方式,您可能實際上將它們視爲ETL的副作用。

你打算在MySQL中存儲最細粒度的事實數據嗎?根據我的經驗,當涉及到存儲和分析事實數據時,Hive + Hadoop擊敗了關聯數據庫。如果您需要實時訪問查詢結果,則可以通過將結果存儲在MySQL中來「緩存」彙總結果。