我在Udacity.com上參加了Hadoop和MapReduce的課程,講師提到在HDFS中爲了減少故障點,每個數據塊在數據庫中被複制3次。這是真的嗎?這是否意味着如果我有1 PB的日誌,我需要3 PB的存儲空間?因爲這會讓我付出更多的代價HDFS是否需要數據空間的3倍?
0
A
回答
0
是的。所以說,如果你說有4臺機器上運行着datanode,那麼默認情況下複製也會在其他兩臺機器上隨機發生。如果你不希望出現這種情況,你可以通過在HDFS-site.xml中設置dfs.replication
屬性切換到1
1
是的,是真實的,HDFS要求每個冗餘副本空間,需要拷貝來實現容錯和處理過程中的數據局部性。
但是,這不一定是真實的關於MapReduce,它可以運行在其他文件系統,如S3或Azure blob,例如。 HDFS需要3個副本。
0
這是因爲HDFS在存儲數據時會複製數據。 hdfs的默認複製因子是3,您可以在ddfs.replication屬性下的hdfs-site.xml文件中找到它。您可以根據您的要求將此值設置爲1或5。
數據複製非常有用,就像某些節點特別關閉一樣,您將擁有其他節點/節點上可用的數據副本進行處理。
1
默認情況下,HDFS設置參數dfs.replication
設置值爲3,允許容錯,disponibility,等...(All parameters of HDFS here)
但在安裝時,你可以設置爲1的參數,和HDFS不要複製你的數據。在dfs.replication = 1的情況下,1 PB的存儲空間量相同。
相關問題
- 1. 數據庫中是否需要名稱空間?
- 2. WCF DataContract命名空間是否需要
- 3. iOS Image資產大小。 3倍實際上是1倍尺寸的3倍,需要Retina 4倍?
- 4. 我需要看看兩個數字是否爲倍數
- 5. 爪哇 - 是否空變量需要的內存空間
- 6. 存儲過程是否需要數據庫中的一些物理空間?
- 7. 爲什麼gtk.Table需要兩倍的空間比它應該?
- 8. 是否需要爲bootstrap 3添加reset.css?
- 9. 是否需要爲skflow.TensorFlowDNNClassifier縮放數據?
- 10. 數據增強 - 是否需要轉移?
- 11. zlib - 頭是否需要gzip'd數據?
- 12. ShareMediaTask是否需要數據連接
- 13. rpart:是否需要訓練數據
- 14. 是否需要關係數據庫?
- 15. Git是否需要比SVN更多的空間?
- 16. 默認的XML名稱空間是否需要前綴?
- 17. 時間戳是否需要可空的虛假聲明
- 18. 更新列表是否需要額外的空間?
- 19. ClearDB - 讀取最新數據是否需要時間?
- 20. 是3的倍數的數組編號
- 21. 如果我向數據契約添加了非必需的元素,是否需要新的名稱空間?
- 22. AddHandler是否需要參數?
- 23. Linux是否需要用戶空間堆棧?
- 24. vuex模塊是否仍然需要命名空間?
- 25. 需要多少額外的空間來修復數據庫需要
- 26. 消耗的HDFS空間:「hdfs dfs -du /」vs「hdfs dfsadmin -report」
- 27. 替換數據幀中的空串需要很長的時間
- 28. 流程是否需要時間戳?
- 29. 如何查看數據表的行是否有空的空間
- 30. 我是否需要將空參數傳遞給javascript函數?