2011-12-20 43 views
0

這對多階段工作有影響。例如,如果我們在作業的階段1中按鍵「a」,並在作業的階段2(以階段1輸出爲標準輸入)輸出關鍵字「b」,那麼我們可以假設兩個階段完成時記錄是按鍵「b」排序,然後按鍵「a」排序?爲了這個問題的目的,假設映射器和簡化器不排列記錄順序。還假設減少任務的數量是1或更多。hadoop流是否在地圖和縮小階段之間使用穩定的排序?

請記住,答案可能會因階段1的減少任務的數量而異。例如,如果階段1的減少任務的數量大於1,則密鑰a將被分割到多個文件中(儘管按照每個文件的排序順序)。但是,只有一個reduce任務時,所有值都將顯示在同一個文件中,這可能是實現穩定性的必要條件,具體取決於實現。

如果答案是肯定的,鏈接到適當的文檔將是最有幫助的。

感謝,

的setjmp

回答

2

默認情況下,Hadoop的不會執行你想要的穩定排序屬性。

Hadoop流式傳輸有比較器和分區器來幫助將結果從地圖分類到reduce;看一下here

編輯:更新斷開的鏈接

+0

您的鏈接被破壞fyi – mortonjt 2013-06-20 15:08:25

相關問題