2016-05-04 25 views
-5
Migrating the data from Legacy database [~50 TB] to New Database. 
Migrating data from staging database[ 5GB per 1 hr] to New Database. 

Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data) 

請提供使用Hadoop生態系統的架構。如何解決使用hadoop的下面的用例?

回答

1

我想你可以Cloudera經理和CDH(hadoop)。

ETL:Sqoop 2 SQL:Hive & Impala 數據挖掘:Spark。

Sqoop可以輕鬆地從你的遺留數據庫將數據加載到Hadoop的(簡單的命令)

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table 

之後,你可以使用HUE(網絡接口編寫SQL,元數據,工作流)來查詢數據。

Impala是Cloudera的MPP數據庫。

這很容易擴大。

主節點(* 1):64G內存 從節點(* 3):32G內存

負荷小的量

首先對證明的概念,可以從4個節點啓動集羣數據進入數據湖。 完成後,可以向外擴展並將更多節點添加到數據湖中。

相關問題