2012-11-29 66 views
1

我有10個HDFS文件和數字(整數)。 當我用mapreduce對它們進行排序時,每個reducer的輸出都很好地排序。但是,如果我想讓所有數字在全球排序呢?是這樣的:第一個輸出文件的最大數,最後輸出文件的最小數...用mapreduce全局排序

我想到的選項是:

  • 使用一個單一的減速,這可能會使MapReduce的
  • 下載和合並排序的所有本地...

沒有更好的辦法的目的是什麼? 感謝

回答

0

看看terrasort的例子。 他們首先做了一個數據樣本來創建一個分區方案,確保對最終結果進行全局排序。