2017-04-04 35 views
0

我需要將大量數據從RDBMS移動到Hadoop而不使用Sqoop。我有2200個表的數據庫,並使用Sqoop將它們導入到hdfs是一項繁忙的工作,需要耗費大量時間並敲擊數據庫以選擇每次影響性能。我有更多的資源從RDBMS轉移到hdfs。我用hive查詢hdfs中的文件。有人能以更高效的方式幫助我嗎?如何將數據從RDBMS移動到沒有Sqoop的hadoop?

回答

0

你可以隨時用任何後端代碼來實現它:從數據庫讀取數據並寫入HDFS流。
然後在您的應用程序配置中,您可以進行任何您需要的定製(線程,超時,數據批量等)。這是相當直接的解決方案。
由於某種原因,我們已經嘗試過這一次,我不記得了。但大多數情況下我們使用sqoop,在這裏沒有問題。
你也可以做一個數據庫副本(sime類副本),除了你的sqoop作業以外,任何外部系統都不會使用它。所以用戶選擇不會影響性能。

相關問題