2016-07-14 131 views
0

我想在HDFS(Hadoop文件系統)上保存圖像文件(如jpeg,png等)。我嘗試了兩種方式:在HDFS中保存圖像文件(jpeg,png)的輸入格式

  1. 保存,因爲它是圖像文件(即在相同的格式)到HDFS使用put命令。完整的命令是:hadoop fs -put /home/a.jpeg /user/hadoop/。它被成功放置。
  2. 將這些圖像文件轉換爲Hadoop的Sequence File格式&然後使用put命令保存在HDFS中。

我想知道應該使用哪種格式保存在HDFS中。
什麼是使用Sequence File格式的優點。我知道的一個優點是它是可拆分的。還有其他嗎?

回答

0

與HDFS存儲的塊大小相比,圖像尺寸非常小。小文件的問題是對處理性能的影響,這就是爲什麼您應該使用序列文件,HAR,HBase或合併解決方案。看到這兩個線程更多信息。

effective way to store image files

How many files is too many on a modern HDP cluster?

處理1MB的文件具有開銷了。因此,處理128個1Mb的 文件將花費您128倍的「管理」開銷,而處理1個128Mb文件的文件則需要 。以純文本格式,該1Mb文件可能包含1000 記錄。 128 Mb文件可能包含128000條記錄。

相關問題