4

在Google Container Engine羣集(GKE)上,有時會看到一個吊艙(或更多)未啓動並正在查看其事件,我可以請參閱以下內容Kubernetes吊艙在「Pod沙箱已更改,它將被殺死並重新創建」上失敗

Pod沙箱已更改,它將被殺死並重新創建。

如果我等待 - 它只是不斷重新嘗試。
如果我刪除了pod,並允許它們通過部署的副本集重新創建,它將正常啓動。

行爲不一致。

Kubernetes版本1.7.6和1.7.8

任何想法?

+1

我也看到了這個,它每千次記錄這些錯誤大概每秒一次。 – speedplane

+0

是的 - 這是我看到的。來自@googlecloud的任何人都可以在這裏發表評論? –

回答

5

我可以看到下面的消息張貼在Google Cloud Status Dashboard

「我們正在調查影響谷歌集裝箱引擎(GKE)集羣,其中後搬運工崩潰或重啓的節點上,豆莢無法安排的問題

問題被認爲是影響運行Kubernetes v1.6.11,v1.7.8和v1.8.1的所有GKE集羣

我們的工程團隊表明:如果節點上發佈v1.6.11,請降級節點v1.6.10。如果節點在版本v1.7.8上,請將您的節點降級到v1.7.6 f節點在v1.8.1上,請將節點降級到v1.7.6。

工程團隊還在this doc提供了替代解決方法。這些替代方法是適用於無法降級的節點的客戶「

+0

有趣。很好的結果,雖然我也在1.7.6。我將嘗試其中一種解決方法並更新! –

+0

當前狀態 - 我嘗試了Google的一種解決方法。它沒有幫助。 我將羣集節點降級到1.7.6(我已經有問題了)。似乎更好,但仍不確定。 –

+0

沒有運氣。仍然收到這些錯誤。谷歌正在修復,所以我希望這有助於。 –

2

我在GKE一個節點上受同一問題1.8.1集羣(其他節點被罰款)我沒有如下:。

  1. 確保您的節點池有一定的空間來接收計劃受影響的節點上的所有豆莢有疑問時,增加節點池由1
  2. 流失影響節點以下this manual

    kubectl drain <node> 
    

    您可能會遇到有關本地存儲的守護進程或豆莢警告,請繼續操作。

  3. 在計算引擎中關閉受影響的節點。如果您的池大小小於池描述中指定的值,GKE應計劃替換節點。

+0

這對壞節點來說是一個很好的解決方案,但我的問題似乎發生在多個節點上。它們並不總是在同一時間,所以感覺就像是一場幽靈般的狩獵。 –

+0

當然,具有多個問題節點的大型集羣需要使用此解決方案進行過多的手動工作。我希望這個答案可以幫助那些碰巧找到這個線程的小羣集。 –