0
我有幾個需要使用spark執行的python作業。儘管python代碼不使用任何特定於火花的分佈式庫。它只是使用熊貓,scipy和sklearn來操作數據。僅在主設備上運行的Spark作業
我提交作業用命令的火花: spark-submit --master spark://ip:7077 python_code.py
當我提交幾個這樣的工作,所有的工作只能在主執行。主站上的CPU達到100%,但工作站節點全部閒置。我會想到的是,spark的資源管理器會在集羣中分配負載。
我知道我的代碼沒有使用spark提供的任何分佈式庫,但有沒有辦法將完整的作業分發給不同的節點?