2016-07-16 76 views
1

我知道當你在pyspark中處於客戶端模式時,你不能在你的腳本中設置配置,因爲只要加載了庫,JVM就會啓動。如何在pyspark中的客戶端模式下設置spark driver maxResultSize?

因此,設置配置的方法是實際去編輯啓動它的shell腳本:spark-env.sh ......根據此文檔here

如果我想改變驅動程序的最大結果大小,我通常會這樣做:spark.driver.maxResultSize。什麼是spark-env.sh文件中的等效項?

一些環境變量很容易設置,如SPARK_DRIVER_MEMORY顯然是spark.driver.memory的設置,但spark.driver.maxResultSize的環境變量是什麼?謝謝。

回答

1

配置文件爲conf/spark-default.conf

如果conf/spark-default.conf不存在

cp conf/spark-defaults.conf.template conf/spark-defaults.conf 

添加配置類似

spark.driver.maxResultSize 2g 

有許多配置可參見Spark Configuration

+0

這個參數玩弄後,好像它不」 t需要在配置設置中設置。我實際上可以在python/java/scala腳本中設置,因爲它在JVM啓動之後才被實際使用。 – Candic3

+0

你的意思是使用sc.getConf.set? –

+0

是的,像這樣:'conf.set(「spark.driver.maxResultSize」,「10g」);' – Candic3

相關問題