在羣集上運行速度非常慢的Spark程序

-2

我想在羣集中運行我的PySpark具有2個節點和1個主節點（全部具有16 Gb RAM）。我用下面的命令運行了我的火花。在羣集上運行速度非常慢的Spark程序

火花提交--master紗--deploy模式集羣--name 「Pyspark」 --num執行人40 --executor-2G內存CD.py

但是我的代碼運行非常緩慢，解析8.2 GB數據需要將近1小時。然後我試着改變我的配置YARN。我改變了以下屬性。

yarn.scheduler.increment-allocation-mb = 2 GiB 

yarn.scheduler.minimum-allocation-mb = 2 GiB 

yarn.scheduler.increment-allocation-mb = 2 GiB 

yarn.scheduler.maximum-allocation-mb = 2 GiB

做完這些更改後，我的火花仍然運行得很慢，花費了1個多小時解析了8.2 GB的文件。

來源

2017-09-13 Ironman

請你嘗試用下面的配置

spark.executor.memory5克

spark.executor.cores 5

spark.executor.instances 3

spark.driver。核心2

來源

2017-09-14 20:27:27 user7693121

在羣集上運行速度非常慢的Spark程序

回答

相關問題