google-cloud-platform - 托管实例组中的抢占式虚拟机进入终止状态
问题描述
我有一个由一组可抢占的 VM 组成的托管实例组——它们是短暂的,可以随时被抢占(我们的组足够大,可以承受一次丢失多个 VM)——在大多数情况下,MIG 将使 VM 计数恢复达到 VM 抢占所需的水平 - 有时节点会进入终止状态,MIG 仍将其视为可用并且不采取任何措施来纠正问题 - 所以我关闭了一个或多个虚拟机。我对终止状态的理解是“TERMINATED。用户关闭了实例,或者实例遇到了故障。您可以选择重启或删除实例”。鉴于我们没有关闭实例,它一定遇到了一些故障 - 日志没有表明除了节点被抢占之外的任何东西。
解决方案
阅读您的问题,我了解您想知道为什么虚拟机一直终止,对吗?正如您提到的,您正在使用具有抢占式VM 的托管实例组,这意味着根据本文档,VM 始终会在 24 小时(或更短时间)内终止。
除此之外,也许您想确定过去几个小时内您的实例上发生了什么,为此我建议您在您的实例中打开 SSH 并使用“journalctl”作为示例:
journalctl -b --since "2021-03-04 00:00:00" | grep 'terminated'
此命令将查找从给定时间戳到您运行命令那一刻的所有“终止”语句。
如果您不关心每 24 小时的终止或您的虚拟机,我看不出使用抢占式虚拟机的问题。但是,如果这导致您的操作出现问题,我建议您关闭抢占式功能并让负载均衡器根据您的需要进行操作。
何塞。
推荐阅读
- c++ - C ++无法覆盖基类虚拟方法
- python - 如何在继续之前完成我的 Python 子进程?
- python - 向 Networkx 中的图形节点添加(浮动)坐标 - IndexError
- vb.net - 如何在我的表单后面制作一个窗口的屏幕截图?
- reactjs - 如何在 hoc 中使用最新的路由器 v6 导航
- javascript - 为什么在 Visual Studio 2017 中运行宏会导致调试器崩溃?
- r - 无法复制“使用 R 进行动手编程”示例中的示例
- python - 使用 Numpy linalg.lstsq 求解线性系统时获得(显着)不准确的值
- python - 根据其中一列中的值过滤 DataFrame 中的列
- amazon-web-services - terraform 生成文件,压缩并上传到 s3