2017-03-02 37 views
0

如何基於工作負載動態地添加或刪除spark cassandra集羣資源(工作者,執行者,核心,內存等)?我們可以在部署之前預測集羣資源嗎?在縮小/從羣集中刪除節點時,可以對數據做些什麼。火花cassandra集羣中的自動縮放,停機時間爲零

+0

你能否解釋一下?在部署之前預測羣集資源意味着什麼?你在運行什麼樣的羣集? Spark獨立,YARN,Mesos?你想要刪除什麼樣的節點?火花執行者? Cassandra節點? – LiMuBei

+0

集羣是火花YARN。根據我的理解,添加/刪除執行器由spark動態分配支持,可以說4節點集羣。但它支持拉伸或擠壓簇大小。我們可以分別添加/刪除spark工作節點和cassandra節點嗎?如果是,那麼該怎麼做。究竟是什麼觸發了火花工人和cassandra節點的添加/刪除?例如: – askquestion

+0

:我從4個節點的spark cassandra集羣開始,每天100GB數據即將到來,而不是如何管理集羣? – askquestion

回答

0

星火支持,有很多的配置選項工人的動態分配,請參考https://spark.apache.org/docs/latest/job-scheduling.html#dynamic-resource-allocation

短版:

  • 星火可以分配新的執行人,當任務隊列滿
  • 星火會收回執行人當它們已經空閒一段時間時
  • 執行器將被分配在啓動時已經設置的核/內存量,所以明智地選擇
  • 緩存將被動態分配的影響(主要是執行者被釋放)
+0

謝謝。我基本上對通過保留數據局部性在spark cassandra集羣中添加/刪除節點感興趣。 – askquestion