2017-09-13 122 views
-2

我想在羣集中運行我的PySpark具有2個節點和1個主節點(全部具有16 Gb RAM)。我用下面的命令運行了我的火花。在羣集上運行速度非常慢的Spark程序

火花提交--master紗--deploy模式集羣--name 「Pyspark」 --num執行人40 --executor-2G內存CD.py

但是我的代碼運行非常緩慢,解析8.2 GB數據需要將近1小時。 然後我試着改變我的配置YARN。我改變了以下屬性。

yarn.scheduler.increment-allocation-mb = 2 GiB 

yarn.scheduler.minimum-allocation-mb = 2 GiB 

yarn.scheduler.increment-allocation-mb = 2 GiB 

yarn.scheduler.maximum-allocation-mb = 2 GiB 

做完這些更改後,我的火花仍然運行得很慢,花費了1個多小時解析了8.2 GB的文件。

回答

1

請你嘗試用下面的配置

spark.executor.memory5克

spark.executor.cores 5

spark.executor.instances 3

spark.driver。核心2

相關問題