1
我有10個HDFS文件和數字(整數)。 當我用mapreduce對它們進行排序時,每個reducer的輸出都很好地排序。但是,如果我想讓所有數字在全球排序呢?是這樣的:第一個輸出文件的最大數,最後輸出文件的最小數...用mapreduce全局排序
我想到的選項是:
- 使用一個單一的減速,這可能會使MapReduce的
- 下載和合並排序的所有本地...
沒有更好的辦法的目的是什麼? 感謝
我有10個HDFS文件和數字(整數)。 當我用mapreduce對它們進行排序時,每個reducer的輸出都很好地排序。但是,如果我想讓所有數字在全球排序呢?是這樣的:第一個輸出文件的最大數,最後輸出文件的最小數...用mapreduce全局排序
我想到的選項是:
沒有更好的辦法的目的是什麼? 感謝
看看terrasort的例子。 他們首先做了一個數據樣本來創建一個分區方案,確保對最終結果進行全局排序。