2
我有一個大文件包含> 10萬行。我想使用MapReduce來獲得重複的行。 我該如何解決這個問題? 感謝您的幫助使用MapReduce獲取大文件中的重複記錄
我有一個大文件包含> 10萬行。我想使用MapReduce來獲得重複的行。 我該如何解決這個問題? 感謝您的幫助使用MapReduce獲取大文件中的重複記錄
您需要利用MapReduce的默認行爲是基於公共密鑰對值進行分組的事實。
因此所需的基本步驟是:
尊敬的二元書呆子 感謝您的幫助,如果我使用行作爲關鍵,我無法獲取重複行的數量並打印所有重複值。 – 2012-07-31 03:04:43
請記住,值是根據具有相同的密鑰進行分組的。所以,如果你有重複的行(鍵),你會看到多個值,這就是你將如何識別重複的行。這是一個非常標準的模式,用於這種事情。 – 2012-07-31 03:10:04
謝謝二元書呆子。 – 2012-07-31 04:04:37