2016-11-30 84 views
0

我用32個從機運行HDFS。hdfs數據歪斜,文件爲什麼不均勻分佈?

每一個從有剩餘的(其餘均爲不HDFS)

當我把32個* 100 GB的文件,將文件傳送到只有一些奴隸大致300GB的本地磁盤空間。由於磁盤空間不足導致任務崩潰。

我該如何避免這個問題?

回答

1

我不是管理員,但在查看你的問題時,這裏是第一個彈出我腦海中的東西。

Hadoop是一個「拓撲感知」系統。請閱讀有關它 here.

如果拓撲是不正確的,則HDFS與默認的複製(3次)寫道將按順序寫(隨機節點 - >在不同機架的節點 - >同一機架第二副本,但一個不同的節點)。

好主意也檢查複製因素。希望這可以幫助!