2
我有很多的小文件,說超過20000多個小文件作爲輸入映射減少
我想節省花費在映射器初始化時間,所以是有可能只使用500映射器,每處理40小文件作爲它的輸入?
如果可能,我需要關於如何實現這種輸入格式的指導,謝謝!
順便說一句,我知道我應該合併這些小文件,這一步也是需要的。
我有很多的小文件,說超過20000多個小文件作爲輸入映射減少
我想節省花費在映射器初始化時間,所以是有可能只使用500映射器,每處理40小文件作爲它的輸入?
如果可能,我需要關於如何實現這種輸入格式的指導,謝謝!
順便說一句,我知道我應該合併這些小文件,這一步也是需要的。
CombineFileInputFormat可以使用。它存在於old和new MR API中。關於如何使用它,這是一個不錯的blog entry。
我明白了,謝謝:) – ygnhzeus 2012-07-13 17:15:04