Q

僅在主設備上運行的Spark作業

2016-04-28 23 views 0 likes

0

我有幾個需要使用spark執行的python作業。儘管python代碼不使用任何特定於火花的分佈式庫。它只是使用熊貓，scipy和sklearn來操作數據。僅在主設備上運行的Spark作業

我提交作業用命令的火花： spark-submit --master spark://ip:7077 python_code.py

當我提交幾個這樣的工作，所有的工作只能在主執行。主站上的CPU達到100％，但工作站節點全部閒置。我會想到的是，spark的資源管理器會在集羣中分配負載。

我知道我的代碼沒有使用spark提供的任何分佈式庫，但有沒有辦法將完整的作業分發給不同的節點？

2016-04-28 nishant

A

回答

0

沒有spark動作API（collect/take/first/saveAsTextFile）什麼都不會在執行器上執行。它不可能僅僅通過提交spark來分發純Python代碼。

您可以檢查其他並行處理庫如dask（https://github.com/dask/dask）。

2016-05-03 18:36:18 user3343061

相關問題