導致集羣上的某個節點進入不健康狀態的原因是什麼?集羣上的不健康節點
基於我的理解有限,它通常發生在給定節點上的HDFS利用率超出閾值時。該閾值由max-disk-utilization-per-disk-percentage屬性定義。
我曾經觀察到在spark-sql觸發內存密集型spark工作或使用pyspark節點進入不健康狀態的時候。進一步觀察後,我在處於不健康狀態的節點上執行了ssh,發現實際上dfs利用率低於75%,並且爲我的集羣上述屬性設置的值爲99。
所以我認爲有一些其他的事實,我失蹤,這基本上導致這種行爲。
在此先感謝您的幫助。
和Manish梅拉