我計劃一個hdfs系統,它將託管數字存儲庫(Fedora Commons)的圖像文件(幾MB到200mb)。我從another stackoverflow post發現CombineFileInputFormat可用於創建由多個輸入文件組成的輸入分割。這種方法可以用於圖像或PDF嗎?在地圖任務中,我希望完整地處理各個文件,即分別處理輸入分割中的每個圖像。對圖像(或BLOB)使用CombineFileInputFormat?
我知道小文件的問題,這對我的情況不會有問題。
我想使用CombineFileInputFormat來避免Mapper任務設置/清理開銷和數據局部性保存的好處。
對不起,如果我不清楚。我想使用'CombineFileInputFormat'來爲每個映射器提供多個圖像,因此預計會有一個以上的圖像。是否有可能在映射器內找到單個圖像的邊界?另外,CombineFileInputFormat可能會將兩個輸入分割中的單個圖像分開嗎? – Mohamed 2013-02-18 13:40:46
我想避免HIPI的原因是圖像由使用HDFS作爲文件存儲的外部服務器(Fedora Commons)管理。所以,我將不得不在HIPI存檔中創建原始圖像的副本。這會增加羣集的存儲需求。另外,當添加/刪除圖像時,我將不得不重建HIPI存檔。 我還考慮過使用URL列表作爲輸入的另一種解決方案,但數據局部性優勢將會丟失。 – Mohamed 2013-02-18 13:54:35