0
在我的應用程序中有4個表,每個表有超過100萬個數據。
目前我的基於Java的報表引擎會將所有表格連接起來,並將數據顯示在報表中。遞增更新/添加HDFS數據
現在我想介紹一下使用sqoop的Hadoop。我已經安裝了hadoop 2.2和sqoop 1.9。
我已經做了一個小的POC導入hdfs中的數據。問題是,每次它創建新的數據文件。
我需要的是:
會有將在每天運行一次調度,它會:
- 使用sqoop所有四個表和負載HDFS選擇的數據。
- PIG將進行一些轉換並加入數據,並將準備具體的標準化數據。
- Sqoop將再次將這些數據導出到單獨的eporting表中。
我身邊有這樣幾個問題:
- 我是否需要從數據庫中導入整個數據到HDFS上的每個sqoop進口通話?
- 在主表中一些數據更新和一些新的數據,所以如何我可以處理,如果我在加載HDFS時合併數據。
- 在出口時我是否需要將整個數據再次輸出到報表。如果是的話,我會怎麼做。
請幫我在這種情況下...
請給我建議的更好的解決方案,如果您有..