2017-05-26 43 views
3

我一直在運行Kubernetes集羣一段時間,但我一直無法保持穩定。 我的羣集由四個節點,兩個主人和兩個工人組成。所有節點都運行在同一臺物理服務器上,後者運行VMware vSphere 6.5。每個節點運行CoreOS穩定版(1353.7.0),並且運行Kubernetes/Hyperkube v1.6.4,使用Calico進行網絡連接。我遵循this指南中的步驟。所有Kubernetes Pods同時下降

會發生什麼事情是幾個小時/天,羣集將順利運行。然後,突然之間(據我所知,沒有明顯的原因),我所有的豆莢都處於「待定」狀態,並保持這種狀態。任何託管服務不再可及。 經過一段時間(通常5到10分鐘)後,它似乎自我恢復,之後它開始重新創建我的所有豆莢,並嘗試(但未能)關閉所有正在運行的豆莢。一些新創建的豆莢出現了,但最初並沒有連接到互聯網。

幾個星期後,我已經間歇地發生過這個問題,並且它一直阻止我在生產中使用Kubernetes。我真的很想弄清楚這是什麼原因造成的!

奇怪的是,當我嘗試通過檢查日誌來診斷問題時,我注意到在我的兩個工作節點上,日誌記錄日誌已經損壞!在主節點上,日誌仍然可讀,但不是非常有用。

即使在運行時,kubelet也會在其日誌中不斷髮出錯誤。在所有的節點,這是何等的發佈大約每分鐘:

May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.012890 24228 cni.go:275] Error deleting network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory 
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014762 24228 remote_runtime.go:109] StopPodSandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" from runtime service failed: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory 
May 26 09:37:14 kube-master1 kubelet-wrapper[24228]: E0526 09:37:14.014818 24228 kuberuntime_gc.go:138] Failed to stop sandbox "3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233" before removing: rpc error: code = 2 desc = NetworkPlugin cni failed to teardown pod "logstash-s3498_default" network: open /var/lib/cni/flannel/3975179a14dac15cd41881266c9bfd6b8763c0a48934147582cb55d5618a9233: no such file or directory 
May 26 09:38:07 kube-master1 kubelet-wrapper[24228]: I0526 09:38:07.422341 24228 operation_generator.go:597] MountVolume.SetUp succeeded for volume "kubernetes.io/secret/9a378211-3597-11e7-a7ec-000c2958a0d7-default-token-0p3gf" (spec.Name: "default-token-0p3gf") pod "9a378211-3597-11e7-a7ec-000c2958a0d7" (UID: "9a378211-3597-11e7-a7ec-000c2958a0d7"). 
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]: W0526 09:38:14.037553 24228 docker_sandbox.go:263] NetworkPlugin cni failed on the status hook for pod "logstash-s3498_default": Unexpected command output nsenter: cannot open : No such file or directory 
May 26 09:38:14 kube-master1 kubelet-wrapper[24228]: with error: exit status 1 

我GOOGLE了這個錯誤,遇到this問題,但已關閉和人民表明,使用V1.6.0或更高版本應該可以解決這個問題,但它絕對沒有在我的情況下...

任何人都可以指出我在正確的方向嗎?

謝謝!

+0

我有這個行爲,以及每一個版本的迴歸是一場噩夢。通過湛藍的集裝箱業務運行kubernetes集羣。我認爲這是1.5.3,雖然。 你有沒有有沒有解決這個問題? – jt55401

+0

如果豆莢處於未決狀態,它可能表明調度器可能存在問題,您是否也可以從調度器和控制器發佈日誌? –

+0

我剛剛檢查了問題,它看起來像最近有一個迴歸,我會建議跟隨這個問題和ping的維護者 –

回答

1

也看到了這一點。如果您使用docker 1.12.3將CoreOS降級到舊版本,問題似乎會消失。

泊塢窗是它們釋放:(

相關問題