從Hadoop端的關係數據庫中查找數據

我正在將SSIS解決方案轉換爲Hadoop以便在數據倉庫中進行ETL處理。從Hadoop端的關係數據庫中查找數據

我預期的系統：
ETL - 登陸&分期（Hadoop的）----把數據--->數據倉庫（MySQL的）

的問題是：在變換句話，我需要從hadoop端查找MySQL數據（豬或mapreduce作業）。有兩種解決方案：
1st：克隆所有表需要從MySQL查找到Hadoop。這意味着我們需要維護2個地方的數據。
2nd：直接查詢到MySQL。我擔心很多連接到MySQL服務器。

這個問題的解決方案/最佳實踐是什麼？還有其他解決方案嗎？

2013-10-04 kaka

您將不得不在Hadoop中對維表進行一些表示。根據您如何執行維度數據的ETL的方式，您可能實際上將它們視爲ETL的副作用。

你打算在MySQL中存儲最細粒度的事實數據嗎？根據我的經驗，當涉及到存儲和分析事實數據時，Hive + Hadoop擊敗了關聯數據庫。如果您需要實時訪問查詢結果，則可以通過將結果存儲在MySQL中來「緩存」彙總結果。

2013-10-04 16:51:11 Olaf

回答