0
我用32個從機運行HDFS。hdfs數據歪斜,文件爲什麼不均勻分佈?
每一個從有剩餘的(其餘均爲不HDFS)
當我把32個* 100 GB的文件,將文件傳送到只有一些奴隸大致300GB的本地磁盤空間。由於磁盤空間不足導致任務崩潰。
我該如何避免這個問題?
我用32個從機運行HDFS。hdfs數據歪斜,文件爲什麼不均勻分佈?
每一個從有剩餘的(其餘均爲不HDFS)
當我把32個* 100 GB的文件,將文件傳送到只有一些奴隸大致300GB的本地磁盤空間。由於磁盤空間不足導致任務崩潰。
我該如何避免這個問題?
我不是管理員,但在查看你的問題時,這裏是第一個彈出我腦海中的東西。
Hadoop是一個「拓撲感知」系統。請閱讀有關它 here.
如果拓撲是不正確的,則HDFS與默認的複製(3次)寫道將按順序寫(隨機節點 - >在不同機架的節點 - >同一機架第二副本,但一個不同的節點)。
好主意也檢查複製因素。希望這可以幫助!