在正在運行的spark/hadoop集羣中添加一個hdfs datanode

我有一個主節點和2個節點（worker + datanode）的spark集羣。
我想添加另一個datanode。的問題是，當我這樣做hdfs dfs -setrep -R -w 2，結果是：在正在運行的spark/hadoop集羣中添加一個hdfs datanode

1st datanode -> DFS Used%: 75.61% 
    2nd datanode -> DFS Used%: 66.78% 
    3rd datanode -> DFS Used%: 8.83%

你知道該怎麼做管理，以平衡在HDFS塊爲30 - > 33％，每個approximatly？

感謝

您應該設置三個副本，以便使用所有三個datanodes。 –

運行balancer，集羣平衡工具。這將重新平衡數據節點之間的數據。

hdfs balancer -threshold <threshold_value>

-threshold確定的磁盤容量的百分比。缺省值爲10.

這指定每個DataNode的磁盤使用量必須或應該調整到羣集總體使用量的10％以內。

此過程可能需要更長的時間，具體取決於要平衡的數據量並且不會影響羣集操作。

或者，如果添加其他節點，則執行Datanode Commissioning。

2017-02-09 16:29:43 franklinsijo

回答