2015-09-03 72 views
1

我正在構建一個Apache Spark應用程序,該應用程序將在EMR實例中執行。爲此,我創建了一個羣集,之後我將步驟添加到羣集以執行Spark應用程序。如何在Amazon EMR實例中安裝s3cmd

在Spark應用程序中,我需要對S3執行讀/寫操作。 對於與S3服務的交互,我需要安裝s3cmd in EMR實例。 也同時創造EMR集羣,我需要安裝和配置s3cmd使用--bootstrap應用

但我需要關於如何安裝和配置s3cmd使用引導程序的應用程序的詳細信息

請提供關於適當的信息它

回答

1

https://dbaumgartel.wordpress.com/2014/04/10/an-elastic-mapreduce-streaming-example-with-python-and-ngrams-on-aws/

給出推Python腳本至S3(使用s3cmd在本地計算機上),其在EMR應用程序中使用的一個例子。然後,您將源數據推送到S3,並且EMR應用程序放入S3中​​的結果。您可以在本地計算機上使用s3cmd來推送源數據並下載結果。

如果您的源數據已存在於S3或AWS中的其他位置,則始終可以創建一個新的EC2實例,在該實例中運行s3cmd以將數據導入正確的S3存儲桶進行處理。

相關問題