偶爾,我看到一個問題,在沒有網絡連接的情況下pod將啓動。因此,吊艙進入CrashLoopBackOff並且無法恢復。我能夠再次運行pod的唯一方法是運行kubectl delete pod
並等待其重新計劃。這裏的活躍度探測失敗的例子,由於這個問題:偶爾會創建一個沒有網絡的pod,導致pod重複失敗,導致CrashLoopBackOff
Liveness probe failed: Get http://172.20.78.9:9411/health: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
我也注意到,有吊艙IP沒有iptables的條目時發生這種情況。當pod被刪除並重新安排(並且處於工作狀態)時,我擁有iptables條目。
如果關閉容器中的livenessprobe並將exec執行到其中,我確認它沒有與羣集或本地網絡或Internet的網絡連接。
希望聽到任何有關它可能是什麼的建議,或者我可以考慮進一步排查此情況。
目前運行:
Kubernetes版本:
Client Version: version.Info{Major:"1", Minor:"4", GitVersion:"v1.4.7",
GitCommit:"92b4f971662de9d8770f8dcd2ee01ec226a6f6c0",
GitTreeState:"clean", BuildDate:"2016-12-10T04:49:33Z",
GoVersion:"go1.6.3", Compiler:"gc", Platform:"linux/amd64"}
Server Version: version.Info{Major:"1", Minor:"4", GitVersion:"v1.4.7",
GitCommit:"92b4f971662de9d8770f8dcd2ee01ec226a6f6c0",
GitTreeState:"clean", BuildDate:"2016-12-10T04:43:42Z",
GoVersion:"go1.6.3", Compiler:"gc", Platform:"linux/amd64"}
OS:
NAME=CoreOS
ID=coreos
VERSION=1235.0.0
VERSION_ID=1235.0.0
BUILD_ID=2016-11-17-0416
PRETTY_NAME="CoreOS 1235.0.0 (MoreOS)"
ANSI_COLOR="1;32"
HOME_URL="https://coreos.com/"
BUG_REPORT_URL="https://github.com/coreos/bugs/issues"
對於未準備好的端點(例如:crashloopbackoff中的死容器),您不會獲得iptables條目。您應該首先診斷網絡問題,「沒有網絡連接」是什麼意思?你可以到達google.com嗎?您是否可以在同一集羣中訪問另一個Pod或Service?請開始調試:https://kubernetes.io/docs/user-guide/debugging-services/並報告哪一步失敗。 –