我是hadoop的新手,並試圖處理維基百科轉儲。這是一個6.7 GB的gzip壓縮xml文件。我讀過hadoop支持gzip壓縮文件,但只能在一個作業上由mapper處理,因爲只有一個mapper可以解壓縮它。這似乎對處理造成了限制。有其他選擇嗎?像解壓和XML文件分割成多個塊,並用gzip重新壓縮它們。Hadoop gzip壓縮文件
我從http://researchcomputing.blogspot.com/2008/04/hadoop-and-compressed-files.html
感謝您的幫助瞭解Hadoop的gzip的。
難道我們還需要維護每個拆分XML文件的完整性? – root1982 2012-05-29 14:43:57
是的,這是使用的RecordReader實例的任務。 – 2012-05-29 15:29:46
這是完整文件gzipping的情況,但Hadoop可以使用塊gzipping來解決此問題。看泰德的答案。 – jhclark 2016-08-22 16:41:26