2016-11-03 51 views
0

如何計算spark-submit命令的最佳內存設置?Spark-submit命令的內存參數

我從Oracle帶來了4.5GB的Spark數據,並執行了一些轉換,如與Hive表連接並將其寫回Oracle。我的問題是如何提出具有最佳內存參數的spark-submit命令。

spark-submit --master yarn-cluster --driver-cores 2 \ 
--driver-memory 2G --num-executors 10 \ 
--executor-cores 5 --executor-memory 2G \ 
--class com.spark.sql.jdbc.SparkDFtoOracle2 \ 
Spark-hive-sql-Dataframe-0.0.1-SNAPSHOT-jar-with-dependencies.jar 

如何計算,應該是什麼驅動程序內存,需要多少驅動程序/執行程序內存,需要多少內核等等?

回答

1

也就是說,一般來說,一個複雜的問題沒有銀彈答案。最佳選擇不僅取決於您的數據特徵和操作類型,還取決於系統行爲(Spark優化器等)。可以找到一些有用的提示here