1
我正在實現reduce-side join來查找數據庫A和B之間的匹配。來自數據集的兩個文件每行都包含一個json對象。連接鍵是每個記錄的名稱屬性,因此,映射器提取json的名稱並將其作爲鍵傳遞,並將json本身作爲值傳遞。減速器必須將jsons對象合併爲相同或相似的人名。Hadoop加入字符串鍵
問題是我需要使用字符串相似性匹配算法對密鑰進行分組,例如John White必須被認爲與John White Lennon相等。
我試圖用分組比較器來做,但它沒有按預期工作。
這是如何實現的?
在此先感謝!
我想我誤解了一些MapReduce的概念。沒有辦法重寫Hadoop如何分組密鑰嗎?例如,在實現二次排序時,您可以將分組設置爲僅使用自然鍵(基本上是一個compareTo方法)完成,因此,我認爲可以使用字符串相似性匹配算法完成此分組。 –
該論文似乎非常有用,謝謝,我會在稍後閱讀!但是我有點困惑和好奇,想知道我做錯了什麼,或者讓我通過什麼概念。我只使用一個reducer,所以我想自定義分區不會有任何影響。 –
的確如此。我看到了你的其他問題,並刪除了我以前的評論。 – vefthym