請問有人可以幫忙嗎?我正在努力做到這一點;我無法從AWS控制檯內的數據管道配置中使用Spark安裝創建EMR環境。我選擇'在EMR集羣上運行作業',EMR集羣始終使用Pig和Hive作爲默認值創建,而不是Spark。AWS Data Pipeline配置EMR集羣運行Spark
我明白,我可以選擇的Spark作爲引導行動,在這裏說,但是當我做我得到這個消息: 名稱:xxx.xxxxxxx.processing.dp使用模板
構建:以彈性工作運行MapReduce的簇
參數: EC2密鑰對(可選):xxx_xxxxxxx_emr_key EMR步驟(一個或多個):
火花提交--deploy模式集羣S3://xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3://xxx.xxxxxxx.scripts.bucket/
EMR發佈標籤:emr-4.3.0 Bootstrap動作(可選):s3://support.elasticmapreduce/spark/install-spark,-v,1.4.0.b
AMI位在哪裏?上面的外觀是否正確?
這是我在激活數據管道時遇到的錯誤: 由於以下原因,無法爲@ EmrClusterObj_2017-01-13T09:00:07創建資源:提供的引導操作:'bootstrap-action.6255c495-版本'emr-4.3.0'不支持578a-441a-9d05-d03981fc460d'。 (服務:AmazonElasticMapReduce;狀態碼:400;錯誤代碼:ValidationException;請求ID:b1b81565-d96e-11e6-bbd2-33fb57aa2526)
如果我指定EMR的更高版本,是否將Spark安裝爲默認值?
非常感謝您的任何幫助。 此致敬禮。
非常感謝這,它解決了最初的問題;我的集羣現在從Spark開始。 – MarkAUK123
但現在我的Spark步驟無法正確執行..運行時出現'無法下載'錯誤,並且'僅支持s3 +本地文件'...此處有任何想法? – MarkAUK123