首页 > 解决方案 > Google Compute Engine 上 V100 和 P100 的可用性

问题描述

描述

我刚刚尝试使用我的个人帐户设置或保留一个用于机器学习的虚拟机,我在 n1 上使用了几个月,具有大约 8 GB 或更多的 RAM,以及用于机器学习的 P100 或 V100,现在尝试了至少一半的具有 P100/V100 可用性的区域,并且总是得到像这样的资源错误:

操作类型 [插入] 失败,并显示消息“区域 'projects/lexical-list-285719/zones/us-central1-c' 没有足够的可用资源来满足请求。请尝试其他区域,或稍后再试。”

zone-x 中没有可用资源。我最近从试用中切换。

问题:

A)这很常见吗?

B) 有解决办法吗?

C) 我可以做些什么(如果有的话)来获得具有这些规格或类似性能的机器?

我知道这是因为该区域没有这些规格可用,我应该尝试切换。我也知道托管实例组。但这不可能那么难,不是吗?

谷歌订完了吗?

可能的解决方案

目前我修复它的想法:

非常感谢任何有此主题经验的人分享他们对解决方案或更好的解决方案的经验。

对我来说,一个好的答案包括以下任何一项:

尽管我建议任何不那么持久或紧迫的问题的人就这样做。

标签: google-cloud-platformcloudvirtual-machinegoogle-compute-engine

解决方案


这不是问题,这样的事件时有发生。

此错误消息意味着在特定区域的 Google 一侧没有可用的资源,例如 CPU/RAM/GPU。您可以在文档故障排除 VM 创建部分资源可用性中找到更多详细信息:

当您尝试在因 Compute Engine 资源(例如 GPU 或 CPU)当前不可用而无法满足您的请求的区域中请求新资源时,会发生资源错误。

资源错误仅适用于区域中的新资源请求,不会影响现有资源。资源错误与您的 Compute Engine 配额无关,仅适用于您在发送请求时在请求中指定的资源,而不适用于区域中的所有资源。

资源可用性取决于用户请求,因此是动态的。

有几种方法可以解决这个问题

  1. 尝试在 GPU 可用的另一个区域创建您的实例(如果需要,请求增加配额)。
  2. 请稍等片刻,然后重试。
  3. 请求一些较小的虚拟机(如果可能),稍后您将能够尝试请求一些更大的虚拟机(与配额请求相同的原则)。
  4. 按照文档为您的 VM预留资源,以避免将来出现此类问题(需要额外付费)。

推荐阅读