2016-11-21 95 views
0

我用Standalone Spark Cluster來處理幾個文件。當我執行驅動程序時,每個工作人員使用它的核心處理數據。SPARK分區和Worker Cores有什麼不同?

現在,我已閱讀了關於Partitions,但如果它與Worker Cores不同,我沒有得到它。

設置cores numberpartition numbers之間有區別嗎?

+1

[什麼是工作者,執行者,Spark Standalone集羣中的核心?]可能的副本(http://stackoverflow.com/questions/32621990/what-are-workers-executors-cores-in-spark-standalone -簇) – arglee

回答

2

簡單化的看法:分區VS核心

數當你調用一個動作的RDD,

  • 「作業」 爲它創建。所以,Job是一個被激發的作品。
  • 作業根據洗牌邊界劃分爲「STAGE」!
  • 根據RDD上的分區數量,將每個階段進一步劃分爲任務。所以Task是火花的最小工作單位。
  • 現在,可以同時執行多少個這些任務取決於可用的「核心數量」!
2

分區(或任務)是指一個工作單元。如果你有一個200G的hadoop文件作爲RDD加載並由128M分區(Spark默認),那麼你在這個RDD中有〜2000個分區。內核的數量決定了可以在任何時間處理多少個分區,並且可以並行執行此RDD(最多達2000個分區/任務的數量)。

相關問題