tensorflow - AWS SageMaker:CapacityError:无法预置请求的 ML 计算容量。
问题描述
我们正在运行两个类型为 (1) ml.p3.8xlarge和 (2) ml.p3.2xlarge的 TrainingJob 实例。
每个训练作业都使用 Tensorflow 和 Keras 后端运行自定义算法。
实例 (1) 运行正常,而实例 (2) 在报告的训练时间为 1 小时后,使用 CloudWatch 中的任何日志记录(任何文本拖曳日志)退出并出现以下错误:
Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.
我不确定这条消息是什么意思。
解决方案
此消息表示 SageMaker 尝试启动该实例,但 EC2 没有足够的该实例容量,因此在等待一段时间(在本例中为 1 小时)后,SageMaker 放弃了训练作业并失败。
有关 ec2 容量问题的更多信息,请访问: Troubleshooting-launch-capacity
要解决此问题,您可以尝试按照失败原因中的建议运行具有不同实例类型的作业,或者等待几分钟,然后按照 EC2 的建议再次提交您的请求。
推荐阅读
- arrays - 钻石运算符如何使用数组作为参数
- php - 使用 PHP 添加到 JSON 对象
- php - 如何使用 Angular 9 http post 请求从 API 获取响应
- c++ - c++ boost文件系统remove_all异常目录不为空
- android - 在android上隐藏状态栏的不推荐方法?
- vim - 在拆分而不是浮动窗口中打开 fzf.vim
- reactjs - 仅在 react js 中首次加载页面时更新状态变量
- r - 闪亮的 DT 数据表 使用户只能编辑某些列
- python - 多元线性回归中的成本函数增加
- python - 使用 panda 将解码的 zip 文件转换为 .txt 文件时出错(解码文件在开始时缺少“\t”)