0
我有一個火花應用程序。它會多次加入某個表並將結果寫入HDFS。在什麼情況下,一個階段中的所有任務都在同一執行器中執行
我提交腳本:
spark-submit \
--master yarn \
--deploy-mode cluster \
--driver-memory 14G \
--driver-cores 6 \
--executor-memory 14G \
--executor-cores 4 \
--num-executors 50 \
--conf spark.sql.autoBroadcastJoinThreshold=31457280 \
--conf spark.sql.shuffle.partitions=200 \
--class my.main.class\
my.jar
問題: 火花WebUI中,我喜歡各個階段在同一exector執行: 爲什麼在階段200個任務在同一執行PC上執行-xxxx269?
你從哪裏讀取源? –
從hdfs讀取所有表格 – fifth
您是否在HDFS集羣上運行Spark? –