我們都知道,與傳統文件系統中的塊大小相比,HDFS中的塊大小相當大(64M或128M)。這樣做是爲了減少搜索時間的百分比與傳輸時間的比較(傳輸速率的提高比磁盤搜索時間的提高要大得多,因此設計文件系統時的目標總是減少與要傳輸的數據量相比的搜索數量)。但是這帶來了內部碎片的另一個缺點(這就是爲什麼傳統文件系統塊大小不是很高,並且只有幾KB的量級 - 通常是4K或8K)。HDFS中的大塊大小!未使用的空間如何計算?
我正在閱讀本書 - 權威指南Hadoop,發現在某處寫入的文件比HDFS的塊大小小的文件不佔用完整塊,並且不佔用整個塊的空間,但不能瞭解如何?有人可以請點亮這個。
64MB大小主要是爲了減少網絡流量。由於底層文件系統調用仍然尊重操作系統選擇的大小4K,因此磁盤尋道時間或任何其他優勢都是如此。 – ernesto