2013-01-11 79 views
1

我有很多配置單元表存儲在HDFS中的5個節點的測試羣集上。數據應該在70 Gb * 3左右(重新拼接)。不,我想將整個設置轉移到具有更多節點的不同環境中。兩個羣集之間的網絡連接是不可能的。將整個HDFS從一個羣集傳輸到另一個羣集

事情是,我沒有太多的時間與新的羣集,也沒有可能測試轉移與其他測試環境。所以我需要一個堅實的計劃。 :)

我有什麼選擇?

如何在新集羣上以最少的配置工作傳輸配置單元設置?

是否可以將5個節點的hdfs導向器複製到新集羣的5個節點,然後將其餘節點添加到新集羣並啓動平衡器?

回答

2

沒有網絡連接,這將是棘手!

我會

  1. 將文件複製出來HDFS的到某種可移動存儲(USB閃存盤,外接硬盤等)
  2. 移動存儲到新的集羣
  3. 複製文件回到HDFS

請注意,這不會保留元數據,如文件創建/上次訪問時間,更重要的是,所有權和權限。

這個過程的小規模測試應該非常簡單。

如果你能得到(甚至是暫時的)兩個集羣之間的網絡連接,那麼distcp就是要走的路。它使用map reduce來平行傳輸,可能會節省大量時間。

+0

我想避免這種情況遇到了一個小例子HOD。但由於這些文件都在一個目錄中,所以這個過程不應該有很多步驟,對吧? – kroax

+0

我不會認爲這太難。可能只是需要時間。查看'hadoop fs -copyToLocal'和'hadoop fs -copyFromLocal'這將遞歸地複製整個目錄,如果你傳遞一個目錄的名字。 – dty

0

可以通過使用該命令複製數據: 須藤-u HDFS的hadoop --config {PathtotheVpcCluster}/vpcCluster DistCp使用HDFS:// SOURCEIP:8020 /用戶/ HDFS/WholeData HDFS:// DestinationIP:8020 /用戶/ HDFS/WholeData

相關問題