我是Spark新手。我一直在閱讀關於Spark配置和不同屬性的設置,以便我們優化作業。但我不知道我該如何確定我應該設置什麼?如何設置配置使Spark/Yarn工作更快?
例如,我創建了一個類型的集羣r3.8x大(1Master和10個奴隸)
如何設置:
spark.executor.memory
spark.driver.memory
spark.sql.shuffle.partitions
spark.default.parallelism
spark.driver.cores
spark.executor.cores
spark.memory.fraction
spark.executor.instances
或者我應該只保留默認?但是離開默認會讓我的工作非常緩慢。我的工作有3組小組和3個廣播地圖。
感謝