我需要實現以下問題Hadoop的地圖毒害的耐受力工作的鍵: 我得到類型的數據如何使用相似的算法
public class Data{
private String key;
private String valueData;
}
我需要寫一個映射精簡工作得到所有唯一鍵,其中每個鍵都有一個(隨機)valueData。 對於hadoop來說聽起來很簡單,是的,我知道如何實現這一點。
但真正的問題是,我還需要減少所有「」類似的「鍵。 和輸出應符合的dataValue
一個什麼是Hadoop中以implemet最好的辦法(以及如何)的類似關鍵之一?我還想要改變相似性算法的靈活性。
感謝您的意見。我只想澄清更基本的問題。當我使用Map/Reduce Reduce時,所有鍵都與數值列表相同。如何「更新」默認映射縮小比例關鍵字,因此只有一個類似的鍵會出現在縮小功能中?我正在尋找簡單的Java Map/Reduce代碼 – Julias