我正在構建一個Apache Spark應用程序,該應用程序將在EMR實例中執行。爲此,我創建了一個羣集,之後我將步驟添加到羣集以執行Spark應用程序。如何在Amazon EMR實例中安裝s3cmd
在Spark應用程序中,我需要對S3執行讀/寫操作。 對於與S3服務的交互,我需要安裝s3cmd in EMR實例。 也同時創造EMR集羣,我需要安裝和配置s3cmd使用--bootstrap應用
但我需要關於如何安裝和配置s3cmd使用引導程序的應用程序的詳細信息
請提供關於適當的信息它
我正在構建一個Apache Spark應用程序,該應用程序將在EMR實例中執行。爲此,我創建了一個羣集,之後我將步驟添加到羣集以執行Spark應用程序。如何在Amazon EMR實例中安裝s3cmd
在Spark應用程序中,我需要對S3執行讀/寫操作。 對於與S3服務的交互,我需要安裝s3cmd in EMR實例。 也同時創造EMR集羣,我需要安裝和配置s3cmd使用--bootstrap應用
但我需要關於如何安裝和配置s3cmd使用引導程序的應用程序的詳細信息
請提供關於適當的信息它
給出推Python腳本至S3(使用s3cmd在本地計算機上),其在EMR應用程序中使用的一個例子。然後,您將源數據推送到S3,並且EMR應用程序放入S3中的結果。您可以在本地計算機上使用s3cmd來推送源數據並下載結果。
如果您的源數據已存在於S3或AWS中的其他位置,則始終可以創建一個新的EC2實例,在該實例中運行s3cmd以將數據導入正確的S3存儲桶進行處理。
使用自定義引導操作。
「引導行動是在羣集節點上運行腳本時 亞馬遜EMR啓動集羣。他們執行Hadoop啓動和 前的節點開始處理數據之前。」
put命令來安裝你.SH引導文件需要的所有軟件 – Steve