我有5 TB和合並簇的整體尺寸的實際大小的數據複製因子是7 TB和我已複製因子如何它將設置爲2。Hadoop中
在這種情況下複製數據?
由於複製因素,羣集(節點)上存儲的最小大小應始終是數據大小的兩倍,您認爲這是Hadoop的一個缺點嗎?
我有5 TB和合並簇的整體尺寸的實際大小的數據複製因子是7 TB和我已複製因子如何它將設置爲2。Hadoop中
在這種情況下複製數據?
由於複製因素,羣集(節點)上存儲的最小大小應始終是數據大小的兩倍,您認爲這是Hadoop的一個缺點嗎?
這是複製下的情況。假設你有5個街區。由於空間限制,HDFS僅能夠爲前3個塊創建副本。現在其他兩個區塊正在複製中。當HDFS找到足夠的空間時,它也會嘗試複製這兩個塊。
如果您的羣集上的最小存儲大小不是數據大小的兩倍,那麼您將最終得到複製不足的塊。低複製塊是複製因子複製因子,因此如果複製因子爲2,則塊將具有複製因子1.
複製數據根本不是Hadoop的缺點,實際上它是使Hadoop有效的一個組成部分。它不僅爲您提供了良好的容錯性,而且還有助於在接近數據的位置運行地圖任務,以避免對網絡造成額外負載(瞭解數據本地化)。
請考慮您的羣集中的某個節點發生故障。該節點將存儲一些數據,如果您不復制數據,則由於節點故障,部分數據將不可用。但是,如果您的數據被複制,那麼節點上發生故障的數據仍然可以從其他節點訪問。
如果你不覺得有必要來複制數據,您可以隨時將您的複製因子= 1
數據的複製是不Hadoop的一個缺點 - 它是提高效率的因素Hadoop(HDFS)。將數據複製到更大數量的從節點可爲羣集提供高可用性和良好的容錯能力。如果我們考慮到由於集羣中節點宕機造成的客戶損失(通常會以百萬美元計),購買數據複製所需的額外存儲設備所花費的成本要小得多。所以數據的複製是合理的。
非常感謝 – Vishwa