2016-02-10 84 views
1

昨天我重新創建了一個集羣,以便它對於主節點和節點都具有版本1.1.7。在部署第一個服務之後,它不再像以前那樣運行。容器引擎集羣版本1.1.7節點不可用

我不能SSH入節點。部署失敗,出現FailedScheduling錯誤。 Kube UI失敗並顯示以下回復。

{ 
    "kind": "Status", 
    "apiVersion": "v1", 
    "metadata": {}, 
    "status": "Failure", 
    "message": "no endpoints available for service \"kube-ui\"", 
    "reason": "ServiceUnavailable", 
    "code": 503 
} 

重置節點在這裏沒有幫助。任何可能導致這種情況的想法?

+0

重置實際上似乎有幫助,但它似乎擊敗了kubernetes必須自己做的目的。 –

+0

該錯誤意味着kube-ui pod未在羣集中運行。你可以運行'kubectl get pod --all-nampespaces'來查看它是掛起還是根本不存在? –

+0

嗨@RobertBailey,運行'kubectl get ev --namespace = kube-system',我們可以從** l7-lb-controller-e8hoy ** pod: '看到此消息'生存性探測失敗:羣集不健康:獲取https ://www.googleapis.com/compute/v1/projects/my-project/global/backendServices?alt = json:oauth2/google:無法從元數據服務獲取令牌;不在GCE上運行 **沒有在GCE **上運行是可疑的......我們使用Terraform和google_container_cluster來生成羣集,我們在過去做過它,它工作正常。所以不知道問題來自哪裏......任何線索? –

回答

1

聽起來像集羣的節點都不健康。這將解釋沒有kube-ui pod運行,以及計劃錯誤。不能SSH進入他們是令人難以置信的奇怪。

什麼是kubectl get nodeskubectl get node NODENAME -o yaml(換掉NODENAME作爲節點名稱之一)返回?

+1

另外,如果您不介意共享您的項目ID和/或羣集名稱,我很樂意幫助弄清楚節點發生了什麼。您可以在google.com上使用arob聯繫我 –

+0

謝謝,我們會與您聯繫。 '條件: - lastHeartbeatTime:2016-02-11T10:18:36Z lastTransitionTime:2016-02-11T10:11:00Z 消息:kubelet有足夠的磁盤空間可用 原因:KubeletHasSufficientDisk 狀態: 「假」 型:OutOfDisk - lastHeartbeatTime:2016-02-11T10:18:36Z lastTransitionTime:2016-02-11T10:19:21Z 消息:Kubelet停止發佈節點狀態。 reason:NodeStatusUnknown status:Unknown type:Ready' –

2

對於任何人想知道問題的原因是什麼,我們向羣集添加了更多虛擬機,並在每個羣集上設置資源請求/限制以防止整個羣集耗盡資源。這似乎解決了它。亞歷克斯,再次感謝您的幫助。