我明白HDFS中小文件和小塊大小的缺點。我試圖瞭解默認64/128 MB塊大小的基本原理。是否有任何大塊大小的弊端(比如說2GB),我讀到的值大於這個值,這是我尚未挖掘的細節。HDFS中的最佳塊大小 - 可能造成大塊大小
問題我有過大的塊大小看(請糾正我,可能會有一些或所有這些問題確實不存在) -
可能的話,則可能是複製一個1千兆的問題文件當一個數據節點出現故障時 - 這需要羣集傳輸整個文件。這似乎是一個問題,當我們正在考慮一個單一的文件 - 但我們可能需要傳輸很多較小的文件,如果我們有更小的塊大小說128 MB(我認爲涉及更多開銷)
可能麻煩映射器。大塊可能以每個映射器結束,從而減少映射器的可能數量。但是,如果我們使用較小的拆分尺寸,這應該不是問題?
它聽起來很愚蠢,當我想到這可能是一個問題,但我想我會拋出它 - 因爲namenode事先不知道文件的大小,所以它可能會考慮一個數據節點不可用,因爲它沒有足夠的磁盤空間用於新塊(考慮到大塊大小可能是1-2Gig)。但可能是它通過減少特定塊的塊大小巧妙地解決了這個問題(這可能是一個不好的解決方案)。
塊大小可能可能取決於用例。我基本上想找到一個問題的答案 - 是否有一個情況/使用情況下,大塊設置可以傷害?
任何幫助表示讚賞。提前致謝。
我想這可能是傳輸文件到客戶端和從客戶端傳輸文件的問題。我認爲如果發生大塊失敗可能會導致代價高昂。 –