2015-02-11 95 views
0

我試着在使用EMR的Spark羣集上運行一個作業。該集羣有一個主站和兩個從站,每個節點(主站或從站節點)有32個內核。該作業通過控制檯使用「添加步驟」,配置設置如下:如何使用EMR使從屬節點適用於Spark羣集?

sparkConf.setMaster(「local [24]」).set(「spark.executor.memory」,「40g」) 。 set(「spark.driver.memory」,「40g」);

然後我注意到兩個從站不工作(CPU使用率接近0),只有主人正在努力工作。我如何解決這個問題,並使奴隸工作?

謝謝!

回答

1

當您指定一個「本地」主設備,即主設備是本地設備時,它不會分佈在節點上。

您應該遵循DOC: http://spark.apache.org/docs/1.2.0/spark-standalone.html

+0

嗨,我需要設置sparkConf.setMaster(「yarn-cluster」)嗎?或者不要設置任何東西,並且./bin/spark-submit - 主紗線集羣會照顧它?謝謝! – Edamame 2015-02-12 17:33:19

+0

請勿使用sparkConf.setMaster。使用 - 主管紗羣參數 – pzecevic 2015-02-13 09:46:41

1

我是最近纔開始使用電子病歷星火工作,但我發現these examples用於啓動/配置羣集並提交星火工作非常有幫助。

+0

嗨,你需要做的EMR集羣上的任何配置,如http://spark.apache.org/docs/1.2.0/spark-standalone.html?謝謝! – Edamame 2015-02-12 17:29:19

+1

Spark的EMR引導(https://github.com/awslabs/emr-bootstrap-actions/blob/master/spark/README.md)設置了在YARN上運行Spark所需的一切。不要在EMR中使用獨立模式。只需根據您的需要將--master設置爲紗線客戶端或紗線集羣。 – ChristopherB 2015-02-14 04:50:07

相關問題