-2
我想在羣集中運行我的PySpark具有2個節點和1個主節點(全部具有16 Gb RAM)。我用下面的命令運行了我的火花。在羣集上運行速度非常慢的Spark程序
火花提交--master紗--deploy模式集羣--name 「Pyspark」 --num執行人40 --executor-2G內存CD.py
但是我的代碼運行非常緩慢,解析8.2 GB數據需要將近1小時。 然後我試着改變我的配置YARN。我改變了以下屬性。
yarn.scheduler.increment-allocation-mb = 2 GiB
yarn.scheduler.minimum-allocation-mb = 2 GiB
yarn.scheduler.increment-allocation-mb = 2 GiB
yarn.scheduler.maximum-allocation-mb = 2 GiB
做完這些更改後,我的火花仍然運行得很慢,花費了1個多小時解析了8.2 GB的文件。