0
如果從2個不同datanode上運行的2個不同映射器獲得相同的鍵/值對,並且如果我使用單個reducer,如何消除重複鍵/值對,並防止它進入減速機?消除來自hadoop中映射器的重複鍵/值對
我是否應該使用組合器,然後檢查相同密鑰是否有重複值,然後在組合器中將其消除?但是組合器將來自單個映射器的所有鍵值對作爲輸入,對嗎?
如果從2個不同datanode上運行的2個不同映射器獲得相同的鍵/值對,並且如果我使用單個reducer,如何消除重複鍵/值對,並防止它進入減速機?消除來自hadoop中映射器的重複鍵/值對
我是否應該使用組合器,然後檢查相同密鑰是否有重複值,然後在組合器中將其消除?但是組合器將來自單個映射器的所有鍵值對作爲輸入,對嗎?
減速機的職責就是處理這種重複。我認爲hadoop沒有辦法正是因爲這個原因。
正如您指出的正確方式 - 組合器將不會完全幫助這裏,但只減少這種複製的數量