首页 > 解决方案 > Compute Engine 运行状况不佳的实例在 50% 的时间内停机

问题描述

我大约 3 天前开始使用谷歌云,所以我对它完全陌生。我有 4 个 Pod 部署到 Google Kubernetes Engine:

** 还有一个为我的 postgresql 数据库运行的 sql 实例,因此是 cloudsql-proxy 容器

这种设置在 50% 的情况下运行良好,但时不时地所有 pod 崩溃或/和容器被重新创建

我试图检查所有相关的日志,但我真的不知道哪些是真正相关的。但是我发现有一件事与我的问题相关,我有 2 个 VM 实例正在运行,其中一个可能是有问题的:

在此处输入图像描述 当我悬停在加载旋转时,它说 Instance is being正在验证,并且似乎 80% 的时间都处于这种状态,当它不是时,实例名称旁边有一个黄色警告,说资源没有准备好.

在此处输入图像描述 这是实例的 cpu 使用率(所有硬件的趋势都是相同的),我检查了我的前端和后端容器的日志,这是对应于 cpu 下降的最后日志:

2019-03-13 01:45:23.533 CET - 服务器准备就绪

2019-03-13 01:45:33.477 CET - 2019/03/13 00:45:33 客户端在 127.0.0.1:5432 关闭本地连接

2019-03-13 01:54:07.270 CET - 纱线运行 v1.10.1

在此处输入图像描述

正如您在此处看到的,正在重新创建所有 pod...


我认为这可能来自故障实例不健康的事实:

实例 gke-*****-production-default-pool-0de6d459- qlxk对于...

...运行状况检查正在进行并一次又一次地重新创建/重新启动实例。如果我错了,请告诉我那么,我怎样才能发现是什么让这个实例变得不健康呢?

标签: kubernetesgoogle-cloud-platformgoogle-compute-enginegoogle-kubernetes-engine

解决方案


推荐阅读