我們已經實現了一個使用Sqoop將數據從RDBMS加載到我們的hadoop集羣的解決方案,僅用於追加數據,它在維度數據到hbase時進入配置單元。將數據從RDBMS加載到具有多個目標的Hadoop
現在我們設置兩個相同的Hadoop集羣,它們是彼此的備份集羣。我們想要將來自RDBMS的數據一次加載到兩個集羣中。 Sqoop不允許我們這樣做。我們已經看到了一些流式傳輸解決方案,如streamsets或nifi,它們允許從一個地方獲取數據並一次發送到多個目的地。此外,我們正在考慮使用sqoop將數據加載到一個羣集,然後設置一個同步作業以將數據定期複製到另一個羣集,這聽起來更恰當,因爲我們擁有的數據量很大。
有人可以分享一些真實的生活經驗嗎?
我們可以使用sqoop從RDBMS加載數據到Hadoop集羣 –
,我們可以使用Hadoop的DistCp使用從一個羣集複製到另一個Hadoop集羣 –
@KanagarajDhanapal是的,你可以使用DistCp使用,但是你如何處理的增量變化,更新? – Shengjie