如何在Amazon EMR實例中安裝s3cmd

我正在構建一個Apache Spark應用程序，該應用程序將在EMR實例中執行。爲此，我創建了一個羣集，之後我將步驟添加到羣集以執行Spark應用程序。如何在Amazon EMR實例中安裝s3cmd

在Spark應用程序中，我需要對S3執行讀/寫操作。對於與S3服務的交互，我需要安裝s3cmd in EMR實例。也同時創造EMR集羣，我需要安裝和配置s3cmd使用--bootstrap應用

但我需要關於如何安裝和配置s3cmd使用引導程序的應用程序的詳細信息

請提供關於適當的信息它

給出推Python腳本至S3（使用s3cmd在本地計算機上），其在EMR應用程序中使用的一個例子。然後，您將源數據推送到S3，並且EMR應用程序放入S3中的結果。您可以在本地計算機上使用s3cmd來推送源數據並下載結果。

如果您的源數據已存在於S3或AWS中的其他位置，則始終可以創建一個新的EC2實例，在該實例中運行s3cmd以將數據導入正確的S3存儲桶進行處理。

2015-09-03 12:39:03

使用自定義引導操作。

「引導行動是在羣集節點上運行腳本時亞馬遜EMR啓動集羣。他們執行Hadoop啓動和前的節點開始處理數據之前。」

2015-10-02 19:48:52 Steve

put命令來安裝你.SH引導文件需要的所有軟件 – Steve

回答