google-cloud-platform - Google Compute Engine 上 V100 和 P100 的可用性
问题描述
描述
我刚刚尝试使用我的个人帐户设置或保留一个用于机器学习的虚拟机,我在 n1 上使用了几个月,具有大约 8 GB 或更多的 RAM,以及用于机器学习的 P100 或 V100,现在尝试了至少一半的具有 P100/V100 可用性的区域,并且总是得到像这样的资源错误:
操作类型 [插入] 失败,并显示消息“区域 'projects/lexical-list-285719/zones/us-central1-c' 没有足够的可用资源来满足请求。请尝试其他区域,或稍后再试。”
zone-x 中没有可用资源。我最近从试用中切换。
问题:
A)这很常见吗?
B) 有解决办法吗?
C) 我可以做些什么(如果有的话)来获得具有这些规格或类似性能的机器?
我知道这是因为该区域没有这些规格可用,我应该尝试切换。我也知道托管实例组。但这不可能那么难,不是吗?
谷歌订完了吗?
可能的解决方案
目前我修复它的想法:
- 多区托管组(仍需检查我的项目是否与该组兼容)
- 遍历所有可用区域的云 shell 脚本(需要研究 shell 脚本的工作原理)
非常感谢任何有此主题经验的人分享他们对解决方案或更好的解决方案的经验。
对我来说,一个好的答案不包括以下任何一项:
区域切换(尝试过)
较小的机器(尝试过,项目不适用于太小的机器)
预约(试过)
等待(已经知道了,如果我现在想要一台机器也无济于事)
尽管我建议任何不那么持久或紧迫的问题的人就这样做。
解决方案
这不是问题,这样的事件时有发生。
此错误消息意味着在特定区域的 Google 一侧没有可用的资源,例如 CPU/RAM/GPU。您可以在文档故障排除 VM 创建部分资源可用性中找到更多详细信息:
当您尝试在因 Compute Engine 资源(例如 GPU 或 CPU)当前不可用而无法满足您的请求的区域中请求新资源时,会发生资源错误。
资源错误仅适用于区域中的新资源请求,不会影响现有资源。资源错误与您的 Compute Engine 配额无关,仅适用于您在发送请求时在请求中指定的资源,而不适用于区域中的所有资源。
资源可用性取决于用户请求,因此是动态的。
有几种方法可以解决这个问题:
- 尝试在 GPU 可用的另一个区域创建您的实例(如果需要,请求增加配额)。
- 请稍等片刻,然后重试。
- 请求一些较小的虚拟机(如果可能),稍后您将能够尝试请求一些更大的虚拟机(与配额请求相同的原则)。
- 按照文档为您的 VM预留资源,以避免将来出现此类问题(需要额外付费)。
推荐阅读
- python - 将代码从 Python 转换为 Julia 后,代码无法正常工作
- c - 分段错误(核心转储)但不知道如何修复
- data-structures - 给定 k 个已排序的数组,从每个数组中选择一个元素,使得所选元素的最大和最小元素之差最小
- sqlite - Sqlite:如何将总数的百分比作为一列
- visual-studio - Visual Studio 2019 Code-Formatter "Ctrl+K / Ctrl +D" 弄乱 HTML 代码
- python - 以上限值为 y 值的增长/动画条形图
- c# - 创建 xml 文档时移动到不同的节点
- swift - 在没有 Swift 框架的情况下分发 Swift 应用程序
- java - 从速度转换为(速度)^-1
- php - 为什么我的浏览器不尊重我班级中的验证组