我使用Hadoop示例程序WordCount處理大型小文件/網頁集(cca。2-3 kB)。由於這與hadoop文件的最佳文件大小相距甚遠,因此該程序非常慢。我想這是因爲設置和裁員的成本遠遠大於工作本身。這樣的小文件也會導致文件名的命名空間耗盡。使用Hadoop處理大量小文件集
我讀過,在這種情況下,我應該使用HDFS壓縮文件(HAR),但我不確定如何修改此程序WordCount以從此壓縮文件讀取。程序能否繼續工作而不需要修改或者需要修改?
即使我在檔案中打包了很多文件,問題仍然存在,如果這會提高性能。我讀過,即使我打包了多個文件,一個存檔內的這些文件也不會被一個映射器處理,但是很多,在我的情況下(我猜)不會提高性能。
如果這個問題太簡單了,請理解我是Hadoop的新手,對它有很少的經驗。
我想我可以,但是因爲我把頁面的URL /地址放在文件的第一行,所以要識別新頁面是否有點困難,或者只是定期鏈接到其他頁面。 – Sasa 2011-05-09 00:49:09