HDFS存儲支持壓縮格式來存儲壓縮文件。我知道gzip壓縮不支持拼夾。試想現在該文件是壓縮大小爲1 GB的gzip壓縮文件。現在的問題是:gzip文件如何存儲在HDFS中
- 如何這個文件將獲取存儲在HDFS(塊大小爲64MB)
從這個link我才知道,gzip格式使用DEFLATE存儲的壓縮數據,並且DEFLATE將數據存儲爲一系列壓縮塊。
但我無法完全理解它並尋找廣泛的解釋。從gzip壓縮文件
更多疑惑:
- 多少塊將在那裏爲這個1GB gzip壓縮文件。
- 它會繼續在多個datanode?
- 複製因子如何適用於此文件(Hadoop羣集複製因子爲3)。
- 什麼是
DEFLATE
算法? - 閱讀gzip壓縮文件時應用哪種算法?
我在這裏看到的是廣泛和詳細的解釋。
文件系統中的文件不必在磁盤上連續存在,無論該磁盤是一個物理磁盤還是分佈式文件系統中的多個磁盤。文件系統將文件分成塊,它存儲在任何決定存儲它的地方。當應用程序請求文件時,文件系統知道到塊的映射以及塊的位置。它發送一個I/O請求來檢索它們,然後文件系統將這些塊分塊回到文件中。大事物的這種劃分是一個重點。分佈式系統可以集中資源來完成單個系統無法單獨完成的任務。 – e0k