如果我使用distcp複製2個羣集中的數據,它是複製所有複製副本還是僅複製1個副本的數據並將其複製到新羣集中?例如,我嘗試從複製因子(RF)爲3的羣集中複製3gb的數據。distcp是否會複製完整的3gb數據,或者是否知道由於RF是3,它需要移動只有1GB(一個副本)的數據。最後在目標羣集上查看RF並相應地複製數據。Hadoop distcp複製副本
0
A
回答
4
原始數據大小很重要。如果原始數據爲1 GB,則複製因子= 3時最多需要3 x 1 GB。將數據從一個羣集複製到另一個羣集時,原始數據很重要。只有原始的1 GB數據將被複制到目標羣集。
HDFS在內部處理塊的複製。它會注意到集羣上的新數據並相應地複製這些數據塊,這些數據塊被複制不足,即具有比RF更少的副本。
1
當您使用distcp進行復制時,只會複製/複製實際數據(即1份數據)。複製將由框架處理,就像在將新數據寫入HDFS時的處理方式一樣。除此之外,對於2個羣集之間的distcp,還可以指定是否要在源處保留複製因子。
相關問題
- 1. Hadoop Distcp是否在塊級複製?
- 2. 複製副本
- 3. 從本地Hadoop到Amazon S3的DistCp
- 4. 具有不同複製因子的簇之間的hadoop distcp
- 5. 從S3複製Hadoop distcp:簽名不匹配錯誤
- 6. Hadoop Distcp將目錄內的目錄複製到同名目錄
- 7. 如何使Hadoop Distcp複製文件夾的自定義列表?
- 8. 複製文件,DistCp使用失敗
- 9. XSLT複製副本
- 10. Hadoop的DistCp使用命令
- 11. Hadoop的DistCp使用錯誤
- 12. Hadoop中的副本
- 13. Hadoop HDFS - 缺失複製副本和欠複製塊之間的區別
- 14. Hadoop distcp到S3後面的HTTP代理
- 15. 使用通配符的Hadoop DistCp?
- 16. Hadoop distcp命令不起作用
- 17. hadoop distcp故障轉移hftp協議
- 18. DistCp使用用Hadoop流作業
- 19. 帶文件列表的Hadoop distcp
- 20. Hadoop distcp不能正常工作
- 21. Hadoop:爲distcp指定紗線隊列
- 22. 如何複製/製作JfreeChart的副本?
- 23. 從S3複製文件DistCp使用或s3distcp
- 24. 'distcp'和'distcp -update'之間的區別?
- 25. 複製到S3的位置使用DistCp使用命令
- 26. Ant:如何停止複製副本
- 27. 跳過複製副本上的文件
- 28. 複製文件並保留副本
- 29. 複製性和Block_copy(myBlock)/ [myBlock副本]
- 30. 將文件從本地複製到Hadoop