2017-01-13 37 views
0

你好人和新年快樂;)!Spark Spark和Spark應用程序可以在同一個YARN集羣中運行嗎?

我正在用Apache Spark,HDFS和Elastichsearch構建一個lambda體系結構。 在下面的圖片,在這裏我想做的事: enter image description here

到目前爲止,我已經寫在Java的源代碼,我的火花流和火花的應用。我在火花文檔中讀到spark可以在Mesos或YARN混淆器中運行。如圖所示,我已經有了一個hadoop集羣。是否有可能在同一個hadoop集羣中運行我的火花流和火花應用程序?如果是,是否有任何特定的配置要做(例如節點的數量,RAM ......)。或者我必須爲火花流添加一個hadoop集羣specialy?

我希望我的解釋清楚。

Yassir

+0

是的,你可以。請檢查:https://www.inovex.de/blog/247-spark-streaming-on-yarn-in-production/ –

回答

1

您無需爲運行火花流創建單獨的羣集。

spark.master屬性更改爲yarn-clientyarn-clusterconf/spark-defaults.conf文件。如果指定了,提交的Spark應用程序將由YARN的ApplicationMaster處理,並由NodeManagers執行。

另外修改核心的這些屬性內存將Spark與紗線對齊。

spark-defaults.conf

spark.executors.memory 
spark.executors.cores 
spark.executors.instances 

yarn-site.xml

yarn.nodemanager.resource.memory-mb 
yarn.nodemanager.resource.cpu-vcores 

否則可能導致要麼死鎖或羣集的不當資源利用率。

當在紗線上運行Spark時,請參考here以獲得集羣的資源管理。

1

這是可能的。您將流式和批量應用程序提交到同一個紗線羣集。但是,在這兩項工作之間共享集羣資源可能有點棘手(根據我的理解)。

所以我建議你看看Spark Jobserver提交你的申請。當您想要維護多個Spark上下文時,Spark-jobserver使您的生活更輕鬆。這兩個應用程序的所有必需配置都將在一個地方。

相關問題