1
「MapReduce設計模式」手冊具有查找數據集中不同記錄的模式。這是算法:在Hadoop中選擇不同的記錄並使用組合器
map(key, record):
emit record, null
reduce(key, records):
emit key
在第66頁,它說:
的組合器,可以隨時在這個模式中使用,可以幫助如果 有大量重複的。
地圖階段發出記錄和NullWritable
(它不寫在電線上)。 Combiner
試圖減少什麼?沒有減少的記錄。