消除來自hadoop中映射器的重複鍵/值對

如果從2個不同datanode上運行的2個不同映射器獲得相同的鍵/值對，並且如果我使用單個reducer，如何消除重複鍵/值對，並防止它進入減速機？消除來自hadoop中映射器的重複鍵/值對

我是否應該使用組合器，然後檢查相同密鑰是否有重複值，然後在組合器中將其消除？但是組合器將來自單個映射器的所有鍵值對作爲輸入，對嗎？

2012-07-20 London guy

減速機的職責就是處理這種重複。我認爲hadoop沒有辦法正是因爲這個原因。
正如您指出的正確方式 - 組合器將不會完全幫助這裏，但只減少這種複製的數量

2012-07-20 09:57:59

回答