首页 > 解决方案 > Google Cloud Platform 上的 GPU 实例在我终止后是否会得到维护?

问题描述

从 Google Cloud Platform 的官方文档来看,GPU 实例偶尔会得到维护:

GPU 实例必须因主机维护事件而终止,但可以自动重启。这些维护事件通常每周发生一次,但在必要时可以更频繁地发生。您必须配置工作负载以干净地处理这些维护事件。具体来说,机器学习和高性能计算 (HPC) 等长期运行的工作负载必须处理主机维护事件的中断。了解如何处理具有 GPU 的实例上的主机维护事件。

此外,根据文档,您可以在实例关闭前一小时从 google api 获取维护警报:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

我的问题是:如果我在收到 api 通知后终止 GPU 实例,终止的 GPU 实例是否会按计划进行维护(一小时后)?

标签: google-cloud-platform

解决方案


维护只需要重新启动您的应用程序即可应用。事实上,大多数时候,它是一个需要更新/修补/更改的底层物理元素。原则是简单地重新启动您的应用程序。为什么??因为当您重新启动应用程序时,它会在另一个物理组件上重新启动。所有实例重启后,维护可以由谷歌完成。

在您的情况下,如果实例被终止并且您启动它,它将在“未维护”的物理基础设施上启动,因此对您没有影响。

注意:没有在软件/操作系统级别应用补丁。谷歌负责底层基础设施(这个维护),你负责操作系统/补丁,在 IaaS 专栏下面

在此处输入图像描述


推荐阅读