2017-01-13 120 views
1

請問有人可以幫忙嗎?我正在努力做到這一點;我無法從AWS控制檯內的數據管道配置中使用Spark安裝創建EMR環境。我選擇'在EMR集羣上運行作業',EMR集羣始終使用Pig和Hive作爲默認值創建,而不是Spark。AWS Data Pipeline配置EMR集羣運行Spark

我明白,我可以選擇的Spark作爲引導行動,在這裏說,但是當我做我得到這個消息: 名稱:xxx.xxxxxxx.processing.dp使用模板
構建:以彈性工作運行MapReduce的簇

參數: EC2密鑰對(可選):xxx_xxxxxxx_emr_key EMR步驟(一個或多個):
火花提交--deploy模式集羣S3://xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3://xxx.xxxxxxx.scripts.bucket/

EMR發佈標籤:emr-4.3.0 Bootstrap動作(可選):s3://support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

AMI位在哪裏?上面的外觀是否正確?

這是我在激活數據管道時遇到的錯誤: 由於以下原因,無法爲@ EmrClusterObj_2017-01-13T09:00:07創建資源:提供的引導操作:'bootstrap-action.6255c495-版本'emr-4.3.0'不支持578a-441a-9d05-d03981fc460d'。 (服務:AmazonElasticMapReduce;狀態碼:400;錯誤代碼:ValidationException;請求ID:b1b81565-d96e-11e6-bbd2-33fb57aa2526)

如果我指定EMR的更高版本,是否將Spark安裝爲默認值?

非常感謝您的任何幫助。 此致敬禮。

回答

2

install-spark bootstrap動作僅適用於3.x AMI版本。如果您使用的是releaseLabel(emr-4.x或更高版本),則要以不同的方式指定要安裝的應用程序。

我自己從來沒有使用數據管道,但是我看到如果在創建管道時,單擊底部的「在Architect中編輯」,然後可以單擊EmrCluster節點並從「添加一個可選字段...「下拉菜單。這是你可以添加Spark的地方。

+0

非常感謝這,它解決了最初的問題;我的集羣現在從Spark開始。 – MarkAUK123

+0

但現在我的Spark步驟無法正確執行..運行時出現'無法下載'錯誤,並且'僅支持s3 +本地文件'...此處有任何想法? – MarkAUK123