我一直在努力研究一段時間,但一些領域對我來說依然灰暗,如果有人能深入研究這一點,那將是一個很大的幫助。 1)如果我有下面的spark提交配置,並且spark創建了大約100個分區,那麼這個分區如何在一個執行器中被逐個或者並行地處理? > 1執行者將會是什麼情況。Apache Spark:如何在執行器中處理分區
--master yarn \
--deploy-mode cluster \
--num-executors 1 \
--executor-memory 3g \
--executor-cores 3 \
2)我們可以控制spark中的分區處理嗎? 3)我理解執行者核心幫助並行分區中的任務,如果我有一個用例,我有一個foreachPartition方法,我正在做一些處理消息,如最大和最小併發送此消息給卡夫卡,什麼角色執行器核心將在此操作中發揮作用。
'執行程序內存指定了Spark可以緩存的數據量,我不認爲這是真的,執行程序內存用於緩存和執行代碼。 –
好吧,這意味着如果我從1增加執行器到2,那麼可以並行處理的最大分區數將是6,因爲我正在爲每個執行器分配3個內核。 – nilesh1212
@RaphaelRoth感謝您的補充。我在回答時錯過了執行代碼的觀點。 – SagarKhandagale