首页 > 解决方案 > Sagemaker 中的培训工作正在停止

问题描述

最近,我在 AWS 上更改了帐户,并在 Sagemaker 中遇到了奇怪的错误。

基本上,我只是xgboost用这种方式检查一些玩具数据集的算法:

from sagemaker import image_uris

xgb_image_uri = image_uris.retrieve("xgboost", boto3.Session().region_name, "1")

clf = sagemaker.estimator.Estimator(xgb_image_uri,
                   role, 1, 'ml.c4.2xlarge',
                   output_path="s3://{}/output".format(session.default_bucket()),
                   sagemaker_session=session)

clf.fit(location_data)

然后开始执行训练作业,但由于某种原因,在下载数据步骤时,它会停止训练作业并显示以下消息:

2021-10-21 17:33:27 Downloading - Downloading input data
2021-10-21 17:33:27 Stopping - Stopping the training job
2021-10-21 17:33:27 Stopped - Training job stopped
ProfilerReport-1634837444: Stopping
..
Job ended with status 'Stopped' rather than 'Completed'. This could mean the job timed out or stopped early for some other reason: Consider checking whether it completed as you expect.

此外,当我尝试返回培训作业部分并检查 cloudwatch 中的日志时,没有任何内容可显示。这是常见的问题吗?谁遇到过这个问题?有什么解决方法吗?

标签: pythonamazon-web-servicesxgboostamazon-sagemaker

解决方案


问题很可能与在创建实例之前运行的 sagemaker 模板有关。


推荐阅读