2016-03-22 52 views
0

如果我在紗線定義CapacityScheduler隊列爲這裏解釋Hadoop的容量計劃和星火

http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html

如何使火花利用這一點?

我想運行spark作業......但它們不應占用所有集羣,而是在具有分配給它的固定資源集的CapacityScheduler上執行。

是否有可能......特別是在cloudera平臺上(考慮到cloudera上的火花在紗線上運行?)。

回答

1
  1. 您應該通過編輯capacity-scheduler.xml來配置CapacityScheduler作爲您的需要。您還需要在yarn-site.xml中指定yarn.resourcemanager.scheduler.class爲org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler,它也是當前hadoop版本的默認選項
  2. 將spark工作提交給設計好的隊列。

如:

$ ./bin/spark-submit --class org.apache.spark.examples.SparkPi \ 
    --master yarn \ 
    --deploy-mode cluster \ 
    --driver-memory 4g \ 
    --executor-memory 2g \ 
    --executor-cores 1 \ 
    --queue thequeue \ 
    lib/spark-examples*.jar \ 
    10 

--queue表示您將提交隊列應該與你的CapacityScheduler配置效法