2014-04-18 41 views
0

在我的應用程序中有4個表,每個表有超過100萬個數據。
目前我的基於Java的報表引擎會將所有表格連接起來,並將數據顯示在報表中。遞增更新/添加HDFS數據

現在我想介紹一下使用sqoop的Hadoop。我已經安裝了hadoop 2.2和sqoop 1.9。

我已經做了一個小的POC導入hdfs中的數據。問題是,每次它創建新的數據文件。

我需要的是:

會有將在每天運行一次調度,它會:

  1. 使用sqoop所有四個表和負載HDFS選擇的數據。
  2. PIG將進行一些轉換並加入數據,並將準備具體的標準化數據。
  3. Sqoop將再次將這些數據導出到單獨的eporting表中。

我身邊有這樣幾個問題:

  1. 我是否需要從數據庫中導入整個數據到HDFS上的每個sqoop進口通話?
  2. 在主表中一些數據更新和一些新的數據,所以如何我可以處理,如果我在加載HDFS時合併數據。
  3. 在出口時我是否需要將整個數據再次輸出到報表。如果是的話,我會怎麼做。

請幫我在這種情況下...

請給我建議的更好的解決方案,如果您有..

回答

1

Sqoop支持增量和delta進口。查看Sqoop文檔here瞭解更多詳情。