誰能幫我寫了合併這兩個文件,然後刪除重複記錄映射器和減速?的Hadoop MapReduce的計劃刪除重複記錄
這是兩個文本文件:
file1.txt
2012-3-1a
2012-3-2b
2012-3-3c
2012-3-4d
2012-3-5a
2012-3-6b
2012-3-7c
2012-3-3c
和FILE2.TXT:
2012-3-1b
2012-3-2a
2012-3-3b
2012-3-4d
2012-3-5a
2012-3-6c
2012-3-7d
2012-3-3c
我只給出了上述兩個文本文件,並指示用Java編寫的映射器和減速器程序和編譯程序的輸出值,但我不知道該怎麼做。沒有共同的鑰匙。 – user5424164
在這種情況下,如前面的評論所述,使用第二個選項:如果匹配或重複只能在匹配完整記錄時結束:則映射器輸入:標準TextInputFormat映射器的輸出鍵:整個記錄和映射器的輸出值:NullWritable。 Reducer:不需要迭代Keys。只取一個Key的實例並將其寫爲Value。減速機的輸出鍵:減速機輸入鍵,減速機的輸出值:NullWritable –