我對在這裏是小將軍遺憾,但我是一個有點困惑的作業調度內部是如何工作的火花。從文檔here我得知它是Hadoop Fair Scheduler的某種實現。阿帕奇星火 - 如何在火花內部作業調度定義什麼是用戶,什麼是池
我不能回頭,明白,到底誰是這裏的用戶(是Linux用戶,Hadoop的用戶,火花的客戶呢?)。我也無法理解這裏定義的池如何。例如,在我的hadoop集羣中,我給了兩個不同池的資源分配(讓他們稱爲團隊1和團隊2)。但是在spark集羣中,不會使用不同的池,並且其中的用戶可以實例化它們自己的spark上下文?這再次讓我質疑,當我將屬性設置爲spark.scheduler.pool時,通過了哪些參數。
我的司機如何實例火花背景下有基本的瞭解,然後把他們分爲任務和作業。可能是我錯過了點完全在這裏,但我真的想了解星火的內部調度的動作,任務,內容和工作
我明白調度器如何在像YARN和mesos這樣的資源管理器上工作。我想我的問題涉及火花的內部調度程序如何工作。我試圖瞭解Spark任務是如何在啓動Spark上下文後分配給JVM資源的,並且Spark驅動程序將它們提交給不同的執行者。所給出的文檔在這方面很不明確,我不明白什麼是公平分享的概念,當涉及到工作中的不同任務時 – Arpit1286