2017-09-22 55 views
1

我正嘗試使用AWS Data PipeLine在EMR羣集中設置運行Spark作業的流程。我們的流程按照「按需」計劃運行。如何通過AWS數據管道行在AWS EMR羣集中運行多個並行點火作業

作爲此活動的一部分,我們在管道開始時創建一個EMR集羣,然後我們希望並行地在一個emr集羣上運行多個spark任務。

有沒有,我們可以在數據管道上按照「按需」計劃運行並行作業。

+0

分配你的集羣是一個「工作組」,並且所有的Spark活動都在那裏運行。如果他們不相互依賴,他們應該同時開始。那麼你只需要在YARN上配置你的Spark(或其他任何調度程序)來以最有效的方式處理併發作業。 – user4601931

+0

謝謝,這個選項工作。除此之外,是否有可能在我的EMRActivity失敗時運行單獨的活動(可以是任何活動)。我只能看到我們可以發送通知。我可以通過lambda處理我的通知,並可以處理它。但是在同一條管線中是有可能的。 – Krish

回答

相關問題