python - Sagemaker 中的培训工作正在停止
问题描述
最近,我在 AWS 上更改了帐户,并在 Sagemaker 中遇到了奇怪的错误。
基本上,我只是xgboost
用这种方式检查一些玩具数据集的算法:
from sagemaker import image_uris
xgb_image_uri = image_uris.retrieve("xgboost", boto3.Session().region_name, "1")
clf = sagemaker.estimator.Estimator(xgb_image_uri,
role, 1, 'ml.c4.2xlarge',
output_path="s3://{}/output".format(session.default_bucket()),
sagemaker_session=session)
clf.fit(location_data)
然后开始执行训练作业,但由于某种原因,在下载数据步骤时,它会停止训练作业并显示以下消息:
2021-10-21 17:33:27 Downloading - Downloading input data
2021-10-21 17:33:27 Stopping - Stopping the training job
2021-10-21 17:33:27 Stopped - Training job stopped
ProfilerReport-1634837444: Stopping
..
Job ended with status 'Stopped' rather than 'Completed'. This could mean the job timed out or stopped early for some other reason: Consider checking whether it completed as you expect.
此外,当我尝试返回培训作业部分并检查 cloudwatch 中的日志时,没有任何内容可显示。这是常见的问题吗?谁遇到过这个问题?有什么解决方法吗?
解决方案
问题很可能与在创建实例之前运行的 sagemaker 模板有关。
推荐阅读
- excel - 使用 VBA 重命名 Excel 表列
- python - 如何将整数列表插入到数据库查询的字符串中 - Python 3
- java - 元素
不允许嵌套 元素 - java - 如何动态设置 setContentType("text/html") 或 setContentType("text/plain")
- python - 在python中减去日期时间,理解格式
- r - 如何使用 compareGroups 包显示中位数?
- visual-studio-code - VSCode:禁用鼠标+ctrl交互
- python - Tensorflow 数据适配器错误:ValueError:无法找到可以处理输入的数据适配器
- r - 选择组的最后一行
- java - Janusgraph 0.3.2 + HBase 1.4.9 - 无法设置 graph.timestamps