1
我有一個大的文本文件(5 GB),每行一個字符串。我需要使用專有算法將每條線與其他線進行比較。我是MapReduce的新手,但擁有Java經驗。給我帶來麻煩的問題是創建單獨的地圖輸入。文檔似乎是在假定每行不依賴於其他行的情況下編寫的。做這件事的最好方法是什麼?與Hadoop MapReduce的成對比較
我有一個大的文本文件(5 GB),每行一個字符串。我需要使用專有算法將每條線與其他線進行比較。我是MapReduce的新手,但擁有Java經驗。給我帶來麻煩的問題是創建單獨的地圖輸入。文檔似乎是在假定每行不依賴於其他行的情況下編寫的。做這件事的最好方法是什麼?與Hadoop MapReduce的成對比較
這裏是做一些有趣的論文聯接用Hadoop:
http://www.inf.ed.ac.uk/publications/thesis/online/IM100859.pdf http://www.inf.ed.ac.uk/publications/thesis/online/IM090720.pdf http://pages.cs.wisc.edu/~jignesh/publ/hadoopjoin.pdf
我想你也應該看看Hadoop的mapred join框架:
http://hadoop.apache.org/common/docs/r0.20.0/api/org/apache/hadoop/mapred/join/package-summary.html
它看起來並不像它會融入MR模式。一個建議 - 產生沒有M-R的對並在這些對上運行M-R? –
Fakrudeen
2012-08-09 08:35:20
這是一種可能性,但爲了解決編碼問題,採用5GB文件並將其設置爲25GB似乎有點冒失。 – 2012-08-09 09:12:18
你可以在每項任務上提供5G的內存嗎?否則,您必須完整地讀取文件中每一行的文件。這是可能的,但很可能是緩慢和錯誤修剪。 – 2012-08-09 09:51:12