1

在集羣管理的多個演示文稿中(例如,1,2,3),調度程序的目標之一是通過將單個作業的任務分配到較少的計算節點來減少協調故障可能會一起失敗。關聯故障對集羣性能的影響

爲什麼單個作業中任務的相關故障是不可取的?如果我理解正確,所有任務都需要在作業完成之前完成。所以乍一看,如果任務失敗僅限於少量的工作,那麼最好只有那些工作由於重新提交失敗的任務而經歷延遲。

我會理解,如果一份工作中的所有任務都是簡單地複製相同的工作,但每個工作有數百個任務不能成爲案例(可能有3-4個相同的任務用於容錯目的,我確實明白爲什麼減少這些任務組的相關故障很重要)。

回答

0

我想清楚我錯過了什麼。我以某種方式想到了一項工作,它將靜態工作分配到一組預定的任務中。實際上,在集羣管理的情況下,工作是動態地在任務之間分配的。因此,任務就像工作人員:他們向負載平衡器公佈其可用性,然後動態分配一些工作部分。

有了這個澄清,一切都很明顯。

如果任務失敗,則負載平衡器將簡單地將相應的工作重新分配給其他任務,但工作性能度量略有惡化(批處理作業時的完成時間;服務作業情況下的等待時間)。但是,如果單一工作中的任務失敗太多,工作績效將受到太大影響。這正是爲什麼相關故障不可取的原因。