2014-09-10 45 views
1

我有一定數量的on-primise hadoop羣集(在我的本地網絡),我有一定數量的數據在亞馬遜雲S3中hadoop簇。在這兩個地方我的數據駐留在配置單元表中。配置單元分佈式查詢加入數據從on-primise hadoop羣集和亞馬遜s3 hadoop羣集

我想從本地hadoop集羣中發出配置單元查詢,此查詢應該加入本地集羣配置單元表中的數據和來自amazon s3 hadoop集羣的配置單元表數據。它應該加入這兩個地方的數據,並將結果

添加到我的本地羣集env中,因爲我正在從本地配置單元shell啓動查詢。

Amazon Data Pipeline是否可以處理此問題?如果是,請引導我。

謝謝,-Suyodha

回答

1

沒有自動解決方案。

首先,您必須從您的本地羣集導出數據並將其傳輸到AWS上的S3。然後您可以將此數據加載到EMR羣集中。

您可以使用數據管道對傳輸到S3的數據集執行Hive活動。

數據管道幫助提供S3複製,EMR羣集設置和Hive活動執行的開箱即用活動。他們無法幫助您將數據從內部部署傳輸到AWS。如果你必須自動化,你需要編寫代碼一些腳本等。

+0

這是Attunity CloudBean的可能。我正在尋找。我會盡快回復你。非常感謝您的關注。 – 2016-08-01 02:43:52