2017-02-09 33 views
2


我有一個主節點和2個節點(worker + datanode)的spark集羣。
我想添加另一個datanode。 的問題是,當我這樣做hdfs dfs -setrep -R -w 2,結果是:在正在運行的spark/hadoop集羣中添加一個hdfs datanode

1st datanode -> DFS Used%: 75.61% 
    2nd datanode -> DFS Used%: 66.78% 
    3rd datanode -> DFS Used%: 8.83% 

你知道該怎麼做管理,以平衡在HDFS塊爲30 - > 33%,每個approximatly?

感謝

+0

您應該設置三個副本,以便使用所有三個datanodes。 –

回答

1

運行balancer,集羣平衡工具。這將重新平衡數據節點之間的數據。

hdfs balancer -threshold <threshold_value> 

-threshold確定的磁盤容量的百分比。缺省值爲10.

這指定每個DataNode的磁盤使用量必須或應該調整到羣集總體使用量的10%以內。

此過程可能需要更長的時間,具體取決於要平衡的數據量並且不會影響羣集操作。

或者,如果添加其他節點,則執行Datanode Commissioning

相關問題