Hadoop的gzip的輸入文件只有一個映射

可能重複：
Why can't hadoop split up a large text file and then compress the splits using gzip?Hadoop的gzip的輸入文件只有一個映射

我發現，使用被gzip壓縮輸入文件時，Hadoop的選擇只分配一個map任務處理我的地圖/減少工作。

的gzip壓縮的文件超過1.4 GB，所以我希望很多映射器以並行方式運行（使用非壓縮文件時exacly等）

是否有任何配置，我可以做些什麼來改善呢？

2011-09-12 yosi

這個問題是相同的 http://stackoverflow.com/questions/6511255/why-cant-hadoop-split-up-a-大文本文件和當時的壓縮最分裂，使用-GZ 和 http://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files 。 –

Gzip文件不能拆分，所以所有的數據只能被一個地圖處理。其他一些壓縮文件可以被拆分的壓縮算法必須被使用，然後數據將被多個地圖處理。這裏有一篇很好的文章。（1）

編輯：這是另一篇關於Snappy（2）的文章，來自Google。

（1）http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

（2）http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/

來源

2011-09-13 04:49:04

Hadoop的gzip的輸入文件只有一個映射

回答

相關問題