2014-06-07 56 views
1

我嘗試...在Hadoop中確定這種情況。Avro文件類型的圖像?

什麼是最好的文件格式的Avro或SequenceFile,在HDFS的情況下存儲圖像和後處理它們,與Python?

SequenceFile是面向鍵值的,所以我認爲Avro文件可以更好地工作?

回答

0

我使用SequenceFile將圖像存儲在HDFS中,並且效果很好。 Avro和SequenceFile都是二進制文件格式,因此它們可以高效地存儲圖像。作爲SequenceFile中的一個鍵,我通常使用原始圖像文件名。

SequenceFile's被用於許多圖像處理產品,如OpenIMAJ。您可以使用現有工具處理SequenceFile中的圖像,例如OpenIMAJ SequenceFileTool

此外,你可以看看HipiImageBundle。這是HIPI提供的特殊格式(Hadoop Image Processing Interface)。根據我的經驗,HipiImageBundle比SequenceFile具有更好的性能。但是隻能由HIPI使用。

如果你沒有大量文件(小於1M),你可以嘗試存儲它們而不打包在一個大文件中,並且加快處理速度use CombineFileInputFormat

我從來沒有使用的Avro存儲圖像,我不知道任何使用它的項目。