與Hadoop MapReduce的成對比較

我有一個大的文本文件（5 GB），每行一個字符串。我需要使用專有算法將每條線與其他線進行比較。我是MapReduce的新手，但擁有Java經驗。給我帶來麻煩的問題是創建單獨的地圖輸入。文檔似乎是在假定每行不依賴於其他行的情況下編寫的。做這件事的最好方法是什麼？與Hadoop MapReduce的成對比較

來源

2012-08-09 Fred Milton

它看起來並不像它會融入MR模式。一個建議 - 產生沒有M-R的對並在這些對上運行M-R？ – Fakrudeen 2012-08-09 08:35:20

這是一種可能性，但爲了解決編碼問題，採用5GB文件並將其設置爲25GB似乎有點冒失。 – 2012-08-09 09:12:18

你可以在每項任務上提供5G的內存嗎？否則，您必須完整地讀取文件中每一行的文件。這是可能的，但很可能是緩慢和錯誤修剪。 – 2012-08-09 09:51:12

與Hadoop MapReduce的成對比較

回答

相關問題