首页 > 解决方案 > GCE (Google Compute Engine) GPU Quota >= 1 但启动 VM 失败

问题描述

我在 GCE 项目中使用 GPU 并决定请求将配额增加到 2。我的 VM 实例 1 在 us-east1-c 中,因此我导航到 IAM & Admin > Quotas 并选择以下内容:服务 - 已选择only Compute Engine API Metric - selected NVIDIA P100 GPUs & selected NVIDIA p100 Virtual Work Station GPUs Locations - 仅选择 us-east1 在收到通知说我已批准将配额增加到 2 个 GPU 后,我开始启动我的 VM 实例并收到错误消息代码:

在此处输入图像描述

我仔细检查了我的配额页面并确认增加到 2 个 GPU。Support@google 告诉我请求增加 GPU 的 Globaly,所以我提交了一个新请求,选择了所有,包括 Global 选项:

在此处输入图像描述

现在,当我尝试启动 VM instance-1 时,我得到:

在此处输入图像描述

所以错误消息说我的配额是 0.0,但是,在 IAM 和管理页面下查看我的配额,我在每个位置都有 2 个配额,包括 us-east1(由于某种原因,除了 europe-west3):

在此处输入图像描述

为了进行故障排除,我尝试在同一项目的不同位置使用 GPU 启动新的 VM 实例,也尝试在新项目中启动新的 VM 实例,但每次都会收到类似的错误消息。我已经使用此链接验证了我选择的位置是否有 GPU 为了增加混乱,没有人在我作为测试场开始的新项目中使用任何设置;配额都默认为 1,但我仍然收到错误消息。我究竟做错了什么?

标签: gpugoogle-compute-enginequota

解决方案


除了请求增加该地区的配额外,您还需要请求增加全球配额。

GPU 配额与虚拟 CPU 配额类似,是指一个区域内所有 VM 实例中虚拟 GPU 的总数。检查配额页面以确保您的项目中有足够的 GPU 可用,并请求增加配额。此外,新帐户和项目具有适用于所有区域的全球 GPU 配额。

当您申请 GPU 配额时,您必须为要在每个区域创建的 GPU 模型申请一个配额,并为所有区域中所有类型的 GPU 总数申请一个额外的全局配额。

这个过程记录在这里

在此处输入图像描述 您可以使用过滤器 Location = Global 来找到它

现在对于区域没有足够资源的第二个错误,如果您看到“ZONE_RESOURCE_POOL_EXHAUSTED”错误,这意味着您在该特定区域遇到临时资源缺货问题。您应该尝试在不同的区域部署

我建议您从该线程中删除您的第二张图片,因为您的项目 ID 是可见的


推荐阅读