首页 > 解决方案 > AWS SageMaker:CapacityError:无法预置请求的 ML 计算容量。

问题描述

我们正在运行两个类型为 (1) ml.p3.8xlarge和 (2) ml.p3.2xlarge的 TrainingJob 实例。

每个训练作业都使用 Tensorflow 和 Keras 后端运行自定义算法。

实例 (1) 运行正常,而实例 (2) 在报告的训练时间为 1 小时后,使用 CloudWatch 中的任何日志记录(任何文本拖曳日志)退出并出现以下错误:

Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.

我不确定这条消息是什么意思。

标签: tensorflowkerasamazon-sagemaker

解决方案


此消息表示 SageMaker 尝试启动该实例,但 EC2 没有足够的该实例容量,因此在等待一段时间(在本例中为 1 小时)后,SageMaker 放弃了训练作业并失败。

有关 ec2 容量问题的更多信息,请访问: Troubleshooting-launch-capacity

要解决此问题,您可以尝试按照失败原因中的建议运行具有不同实例类型的作业,或者等待几分钟,然后按照 EC2 的建议再次提交您的请求。


推荐阅读