首页 > 解决方案 > GCP - GPU 暂存时间减少

问题描述

我有一个应用程序需要尽可能短的启动时间/TTL,并将 GPU 连接到 GCP CE 中的 VM。为了降低成本,我的基础架构依赖于在需求增加/减少时启动和停止实例。

我在没有 GPU 的情况下使用自定义图像实现了不到 5 秒的启动时间,但是一旦我连接了 GPU,“运行”的时间总是超过 20-30 秒。

我尝试了多个不同的发行版,清除 linux,预打包的 Nvidia 驱动程序映像,Fedora 的最小安装,Debian 的最小化,内核和用户空间的减少 - systemd-analyze 说我的启动时间是 3 秒,但使用 GPU 启动 VM 需要 20-跑步前的“STAGING”30 秒。

这只发生在 gpu 连接到 VM 并且移除 VM 在 systemd-analyze 提到的时间内启动时。它在所有发行版和引导映像中都是一致的。

我是否缺少任何软件包或文档来加快连接 GPU 的暂存时间,或者这是 GCP 内部 GPU 实例暂存的限制?

我非常感谢任何帮助或建议。

如果您也遇到此问题并想跟踪其进度,我创建了一个问题报告: https ://issuetracker.google.com/issues/200575905

标签: google-cloud-platformgpugoogle-compute-engineboot

解决方案


这是 GCE 和 GKE 中的一个内部限制,目前没有很多方法可以解决这个问题。
但是,我注意到启动时间随着时间的推移而下降,因此在这件事上有一些改进。您可以通过公共问题跟踪器报告此情况以跟踪开发。

您还可以考虑使用承诺使用折扣持续使用折扣。从长远来看,保持实例运行可能是有益的,因此可以完全避免启动问题。


推荐阅读