首页 > 解决方案 > 是否可以事先识别谷歌计算引擎 onHost 错误以执行一些预重启任务

问题描述

是否可以事先识别谷歌计算引擎onHost error以执行一些重启前/重启后的任务。

标签: google-cloud-platformgoogle-compute-engine

解决方案


不,这是不可能的,因为主机错误可能是预期事件。它应该很少见,但是当它发生时,您无法采取任何行动。

请记住,即使它在“云”中的实例中,也有一台物理机器正在运行您的工作负载,在不幸的情况下,出现硬件故障或虚拟化环境,您无能为力。

更清楚地说,不可能在“onHost 故障”发生前 60 分钟收集通知,例如,当您在维护期间无法实时迁移虚拟机时,您可以这样做。


文档中引用

主机错误意味着托管您的虚拟机的物理机上存在硬件或软件问题,导致您的虚拟机崩溃。当 Compute Engine 检测到此类事件时,我们会在您的操作日志中添加一个 compute.instances.hostError 条目。如果您的虚拟机设置为自动重启(这是默认设置),Google 也会在另一台物理机上重启您的虚拟机。

一般来说,物理硬件故障和软件故障可能会不时发生,但很少发生。为了保护您的应用程序和服务免受此类潜在的破坏性系统事件的影响,请确保您设计稳健的系统并构建可扩展且有弹性的 Web 应用程序。使用托管实例组跨 Compute Engine 实例组执行运行状况检查和扩展。

更新

Compute Engine 提供实时迁移功能,即使在发生主机系统事件(例如软件或硬件更新)时也能保持虚拟机实例运行。

实时迁移使您的实例在以下期间保持运行:

内存、CPU、网卡、磁盘、电源等硬件出现故障。这是尽最大努力完成的;如果硬件完全失败或以其他方式阻止实时迁移,VM 会崩溃并自动重新启动并记录 hostError。


推荐阅读