python-3.x - AWS Sagemaker KeyError:调整超参数时出现“SM_CHANNEL_TRAINING”
问题描述
当我尝试在 Sagemaker 上使用超参数调整时,我收到此错误:
UnexpectedStatusException: Error for HyperParameterTuning job imageclassif-job-10-21-47-43: Failed. Reason: No training job succeeded after 5 attempts. Please take a look at the training job failures to get more details.
当我在 CloudWatch 上查找日志时,所有 5 个失败的训练作业最后都有相同的错误:
Traceback (most recent call last):
File "/usr/lib/python3.5/runpy.py", line 184, in _run_module_as_main
"__main__", mod_spec)
File "/usr/lib/python3.5/runpy.py", line 85, in _run_code
exec(code, run_globals)
File "/opt/ml/code/train.py", line 117, in <module>
parser.add_argument('--data-dir', type=str, default=os.environ['SM_CHANNEL_TRAINING'])
File "/usr/lib/python3.5/os.py", line 725, in __getitem__
raise KeyError(key) from None
和
KeyError: 'SM_CHANNEL_TRAINING'
问题出在项目的第 4 步:https ://github.com/petrooha/Deploying-LSTM/blob/main/SageMaker%20Project.ipynb
非常感谢任何关于下一步看哪里的提示
解决方案
在您的train.py
文件中,将环境变量从
parser.add_argument('--data-dir', type=str, default=os.environ['SM_CHANNEL_TRAINING'])
到
parser.add_argument('--data-dir', type=str, default=os.environ['SM_CHANNEL_TRAIN'])
应该解决这个问题。
Torch 的 framework_version 1.3.1 就是这种情况,但其他版本也可能受到影响。这是供您参考的链接。
推荐阅读
- python - 字典未附加到列表
- javascript - 如何防止多次选择相同的值?
- python - 如何加快 YOLO v3-v4 推理速度?
- javascript - 在函数外部声明的全局变量不起作用
- javascript - 同源是否禁止域加载的第三方脚本向该域发送请求?
- mysql - 使用另一个数据库中的表 SQL 更新表
- r - 按组在 r 中使用 SMA 或 EMA 预测未来季度
- wordpress - 自定义帖子类型正在破坏页面层次结构
- c# - 使用 LIKE 将 Oracle 查询转换为 SQL Server 查询
- python - 部署后 Heroku 错误(没有名为 '_tkinter' 的模块)