Hadoop加入字符串鍵

我正在實現reduce-side join來查找數據庫A和B之間的匹配。來自數據集的兩個文件每行都包含一個json對象。連接鍵是每個記錄的名稱屬性，因此，映射器提取json的名稱並將其作爲鍵傳遞，並將json本身作爲值傳遞。減速器必須將jsons對象合併爲相同或相似的人名。Hadoop加入字符串鍵

問題是我需要使用字符串相似性匹配算法對密鑰進行分組，例如John White必須被認爲與John White Lennon相等。

我試圖用分組比較器來做，但它沒有按預期工作。

這是如何實現的？

在此先感謝！

2014-02-27 João Melo

您在此處提出的要求可以描述爲集合相似性連接，其中集合是例如標記的集合或每行的n元組。這是一個research paper，它描述瞭如何在MapReduce中實現這一點。希望對你有幫助。

2014-02-27 21:19:24 vefthym

我想我誤解了一些MapReduce的概念。沒有辦法重寫Hadoop如何分組密鑰嗎？例如，在實現二次排序時，您可以將分組設置爲僅使用自然鍵（基本上是一個compareTo方法）完成，因此，我認爲可以使用字符串相似性匹配算法完成此分組。 –

該論文似乎非常有用，謝謝，我會在稍後閱讀！但是我有點困惑和好奇，想知道我做錯了什麼，或者讓我通過什麼概念。我只使用一個reducer，所以我想自定義分區不會有任何影響。 –

的確如此。我看到了你的其他問題，並刪除了我以前的評論。 – vefthym

回答