首页 > 解决方案 > Google Kubernetes Engine 每隔 6 小时就会中断一次,就像发条一样?

问题描述

我们在 GCP 上的 GKE 中遇到了一个奇怪的问题,如果间歇性 HTTP 500/520/525 错误尝试每 6 小时 10 分钟访问我们的 API 给或需要几分钟,我们有几秒钟到一分钟的时间,而我们的日志没有给我们还有很多事情要做。

我们的管道如下所示:

user request -> CloudFlare -> GKE nginx LoadBalancer (ssl termination) -> GKE router pod -> API

直接点击 CloudFlare 或 GKE 负载均衡器会显示相同的错误,因此问题似乎出在我们的 GCP 设置中。

过去,我遇到过CloudSQL 代理问题,它每小时更新 SSL 证书并导致非常可预测、非常短暂的中断。

GKE 是否有一个类似的系统,我们可能会遇到它每 6 小时执行一次导致我们出现这些错误的操作?

Pingdom 报告: 每 6 小时 10 分钟短暂中断一次

标签: kubernetesgoogle-cloud-platformgoogle-kubernetes-engine

解决方案


问题原来是内部负载平衡所需的 2 个运行状况检查 IP中只有 1 个被列入白名单。不知道这是如何导致错误如此发条的,但更新我们的防火墙规则已经停止了这个问题。希望对将来的人有所帮助!


推荐阅读