我有四個節點通過設置運行我的火花程序--num -executeors 4, 但問題是隻有兩個運行,其他兩臺計算機不做任何計算,這裏是: Executor_ID地址.... ..Total_Task Task_Time輸入 1 slave8 88 21.5s 104MB 2 slave6 0 0 0B 3 SLAVE1 88 1分鐘99.4MB 4 SLAVE2 0 0 0B如何使執行程序使用--num-executors運行spark程序?
怎樣使運行我火花程序所有這些四個節點?
我有四個節點通過設置運行我的火花程序--num -executeors 4, 但問題是隻有兩個運行,其他兩臺計算機不做任何計算,這裏是: Executor_ID地址.... ..Total_Task Task_Time輸入 1 slave8 88 21.5s 104MB 2 slave6 0 0 0B 3 SLAVE1 88 1分鐘99.4MB 4 SLAVE2 0 0 0B如何使執行程序使用--num-executors運行spark程序?
怎樣使運行我火花程序所有這些四個節點?
我懷疑你的情況,這可以通過更好地劃分你的數據來解決。更好並不總是意味着更多。這也意味着在正確的時間,並以一種可能避免一些洗牌的方式。
我猜你在YARN上運行。在這種情況下,您需要在capacity-scheduler.xml文件中設置
yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator
。請參閱Apache Hadoop Yarn - Underutilization of cores。否則,無論您使用--num-executors
標誌指定什麼,YARN都將只啓動2個執行程序。
您正在使用YARN? –