可能重複:
Why can't hadoop split up a large text file and then compress the splits using gzip?Hadoop的gzip的輸入文件只有一個映射
我發現,使用被gzip壓縮輸入文件時,Hadoop的選擇只分配一個map任務處理我的地圖/減少工作。
的gzip壓縮的文件超過1.4 GB,所以我希望很多映射器以並行方式運行(使用非壓縮文件時exacly等)
是否有任何配置,我可以做些什麼來改善呢?
可能重複:
Why can't hadoop split up a large text file and then compress the splits using gzip?Hadoop的gzip的輸入文件只有一個映射
我發現,使用被gzip壓縮輸入文件時,Hadoop的選擇只分配一個map任務處理我的地圖/減少工作。
的gzip壓縮的文件超過1.4 GB,所以我希望很多映射器以並行方式運行(使用非壓縮文件時exacly等)
是否有任何配置,我可以做些什麼來改善呢?
Gzip文件不能拆分,所以所有的數據只能被一個地圖處理。其他一些壓縮文件可以被拆分的壓縮算法必須被使用,然後數據將被多個地圖處理。這裏有一篇很好的文章。 (1)
編輯:這是另一篇關於Snappy(2)的文章,來自Google。
(1)http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/
這個問題是相同的 http://stackoverflow.com/questions/6511255/why-cant-hadoop-split-up-a-大文本文件和當時的壓縮最分裂,使用-GZ 和 http://stackoverflow.com/questions/5630245/hadoop-gzip-compressed-files 。 –