2016-04-28 23 views
0

我有幾個需要使用spark執行的python作業。儘管python代碼不使用任何特定於火花的分佈式庫。它只是使用熊貓,scipy和sklearn來操作數據。僅在主設備上運行的Spark作業

我提交作業用命令的火花: spark-submit --master spark://ip:7077 python_code.py

當我提交幾個這樣的工作,所有的工作只能在主執行。主站上的CPU達到100%,但工作站節點全部閒置。我會想到的是,spark的資源管理器會在集羣中分配負載。

我知道我的代碼沒有使用spark提供的任何分佈式庫,但有沒有辦法將完整的作業分發給不同的節點?

回答

0

沒有spark動作API(collect/take/first/saveAsTextFile)什麼都不會在執行器上執行。它不可能僅僅通過提交spark來分發純Python代碼。

您可以檢查其他並行處理庫如dask(https://github.com/dask/dask)。

相關問題