2013-12-18 37 views
1

在Hadoop的Terasort實現中,有一個名爲TeraScheduler的調度程序。通過代碼看了,調度主要執行以下操作:Hadoop中的Terasort調度程序

  1. 挑分裂
  2. 對於該主機的最小數量的主機,挑選與主機的最小分割數固定編號和「針」他們要在這個主機上執行。 「未選擇」拆分將從該主機中刪除。
  3. 重複所有主機。

我不明白這個計劃背後的原因。它如何比默認調度程序執行得更好(無論如何,默認調度程序是什麼)?是否有任何文件解釋其好處?

回答

2

的好處是兩個摺疊: (1)儘可能做出本地排序。 (2)在機器上均勻分配工作

兩者都旨在提高性能。