2015-04-01 110 views
0

我有S3 folder的文件,我必須使用PiG scriptsEMR做轉換,然後加載回s3。如何執行AWS emr和redshift腳本?

之後,我創建了從S3加載的redshift中的表格。

目前,我已經使用SQL工作臺從s3加載文件,也從AWS GUI窗口執行豬腳本。

我想知道如何從unix shell中調用豬腳本? 如何執行sqlworkbench以外的紅移腳本? 我如何依次運行它們?

我需要將EC2 Linux安裝程序連接到EMR嗎? 注意:我也有一個Windows EC2實例。

回答

0

首先您需要使用EMR啓動器代碼,您可以使用amazon cli或amazon java SDK來完成。使用此功能可以啓動EMR作業。

您也可以使用亞馬遜EMR控制檯創建羣集。請選擇步豬程序,併爲您的S3豬腳本提供路徑。 在S3中指定輸入位置的路徑,並將輸出位置指定給s3。啓動工作。

作業結束後,它會將輸出寫入s3。

作業成功完成後,啓動腳本(python,shell或java代碼)以觸發複製命令。此腳本應連接到您的Redshift羣集,將處理後的S3從S3複製到紅移表中。

您可以從本地機器連接EMR和紅移,也可以使用EC2觸發您的EMR啓動器和紅移加載程序腳本。

+0

Sandesh讓我告訴你我到目前爲止做了什麼,然後你可以指導我。 1.啓動EMR實例。 2.已經有Ec2窗口。 3.在s3中上傳文件。 4.在cloudera env中測試過的創建豬腳本。 5.當設置防火牆時,我必須連接到ec2窗口。 6.我已經安裝了膩子,從那裏我可以通過膩子連接到emr。 7.我想測試豬腳本的一行代碼,例如加載和存儲命令。我應該在用膩子打開的咕嚕聲中測試。你可以請驗證步驟,然後我可以問我的下一個問題。 – user3858193 2015-04-02 11:34:16

+0

也把你的豬腳本放在s3中。如果您使用AWS控制檯創建EMR,然後添加安裝程序並運行它。你不需要ec2窗口來運行這個工作。您也可以使用本地系統進行午​​餐 – 2015-04-02 13:01:31

+0

我的問題是最好的辦法。將ur腳本放在emr集羣中或放入s3中?我不打算做任何控制檯。我必須在後端做。所以我的問題是是否將豬腳本包裝在unix中然後執行? – user3858193 2015-04-02 23:07:52