AWS Data Pipeline配置EMR集羣運行Spark

請問有人可以幫忙嗎？我正在努力做到這一點;我無法從AWS控制檯內的數據管道配置中使用Spark安裝創建EMR環境。我選擇'在EMR集羣上運行作業'，EMR集羣始終使用Pig和Hive作爲默認值創建，而不是Spark。AWS Data Pipeline配置EMR集羣運行Spark

我明白，我可以選擇的Spark作爲引導行動，在這裏說，但是當我做我得到這個消息：名稱：xxx.xxxxxxx.processing.dp使用模板
構建：以彈性工作運行MapReduce的簇

參數： EC2密鑰對（可選）：xxx_xxxxxxx_emr_key EMR步驟（一個或多個）：
火花提交--deploy模式集羣S3：//xxx.xxxxxxx.scripts.bucket/CSV2Parquet.py s3：//xxx.xxxxxxx.scripts.bucket/

EMR發佈標籤：emr-4.3.0 Bootstrap動作（可選）：s3：//support.elasticmapreduce/spark/install-spark,-v,1.4.0.b

AMI位在哪裏？上面的外觀是否正確？

這是我在激活數據管道時遇到的錯誤：由於以下原因，無法爲@ EmrClusterObj_2017-01-13T09：00：07創建資源：提供的引導操作：'bootstrap-action.6255c495-版本'emr-4.3.0'不支持578a-441a-9d05-d03981fc460d'。（服務：AmazonElasticMapReduce;狀態碼：400;錯誤代碼：ValidationException;請求ID：b1b81565-d96e-11e6-bbd2-33fb57aa2526）

如果我指定EMR的更高版本，是否將Spark安裝爲默認值？

非常感謝您的任何幫助。此致敬禮。

來源

2017-01-13 MarkAUK123

install-spark bootstrap動作僅適用於3.x AMI版本。如果您使用的是releaseLabel（emr-4.x或更高版本），則要以不同的方式指定要安裝的應用程序。

我自己從來沒有使用數據管道，但是我看到如果在創建管道時，單擊底部的「在Architect中編輯」，然後可以單擊EmrCluster節點並從「添加一個可選字段...「下拉菜單。這是你可以添加Spark的地方。

來源

2017-01-13 17:44:31

非常感謝這，它解決了最初的問題;我的集羣現在從Spark開始。 – MarkAUK123

但現在我的Spark步驟無法正確執行..運行時出現'無法下載'錯誤，並且'僅支持s3 +本地文件'...此處有任何想法？ – MarkAUK123

AWS Data Pipeline配置EMR集羣運行Spark

回答

相關問題