2012-08-09 34 views
1

我有一個大的文本文件(5 GB),每行一個字符串。我需要使用專有算法將每條線與其他線進行比較。我是MapReduce的新手,但擁有Java經驗。給我帶來麻煩的問題是創建單獨的地圖輸入。文檔似乎是在假定每行不依賴於其他行的情況下編寫的。做這件事的最好方法是什麼?與Hadoop MapReduce的成對比較

+1

它看起來並不像它會融入MR模式。一個建議 - 產生沒有M-R的對並在這些對上運行M-R? – Fakrudeen 2012-08-09 08:35:20

+0

這是一種可能性,但爲了解決編碼問題,採用5GB文件並將其設置爲25GB似乎有點冒失。 – 2012-08-09 09:12:18

+0

你可以在每項任務上提供5G的內存嗎?否則,您必須完整地讀取文件中每一行的文件。這是可能的,但很可能是緩慢和錯誤修剪。 – 2012-08-09 09:51:12

回答