首页 > 解决方案 > 托管实例组中的抢占式虚拟机进入终止状态

问题描述

我有一个由一组可抢占的 VM 组成的托管实例组——它们是短暂的,可以随时被抢占(我们的组足够大,可以承受一次丢失多个 VM)——在大多数情况下,MIG 将使 VM 计数恢复达到 VM 抢占所需的水平 - 有时节点会进入终止状态,MIG 仍将其视为可用并且不采取任何措施来纠正问题 - 所以我关闭了一个或多个虚拟机。我对终止状态的理解是“TERMINATED。用户关闭了实例,或者实例遇到了故障。您可以选择重启或删除实例”。鉴于我们没有关闭实例,它一定遇到了一些故障 - 日志没有表明除了节点被抢占之外的任何东西。

标签: google-cloud-platforminstancepreemption

解决方案


阅读您的问题,我了解您想知道为什么虚拟机一直终止,对吗?正如您提到的,您正在使用具有抢占式VM 的托管实例组,这意味着根据本文档,VM 始终会在 24 小时(或更短时间)内终止。

除此之外,也许您想确定过去几个小时内您的实例上发生了什么,为此我建议您在您的实例中打开 SSH 并使用“journalctl”作为示例:

journalctl -b --since "2021-03-04 00:00:00" | grep 'terminated'

此命令将查找从给定时间戳到您运行命令那一刻的所有“终止”语句。

如果您不关心每 24 小时的终止或您的虚拟机,我看不出使用抢占式虚拟机的问题。但是,如果这导致您的操作出现问题,我建议您关闭抢占式功能并让负载均衡器根据您的需要进行操作。

何塞。


推荐阅读