在集羣管理的多個演示文稿中(例如,1,2,3),調度程序的目標之一是通過將單個作業的任務分配到較少的計算節點來減少協調故障可能會一起失敗。關聯故障對集羣性能的影響
爲什麼單個作業中任務的相關故障是不可取的?如果我理解正確,所有任務都需要在作業完成之前完成。所以乍一看,如果任務失敗僅限於少量的工作,那麼最好只有那些工作由於重新提交失敗的任務而經歷延遲。
我會理解,如果一份工作中的所有任務都是簡單地複製相同的工作,但每個工作有數百個任務不能成爲案例(可能有3-4個相同的任務用於容錯目的,我確實明白爲什麼減少這些任務組的相關故障很重要)。