amazon-sagemaker - 成功训练后 AWS Sagemaker 失败“ClientError: Artifact upload failed:Insufficient disk space”
问题描述
我正在使用自定义 docker 映像训练网络。第一次训练 50.000 步一切正常,当我尝试增加到 80.000 时,我收到错误:“ClientError: Artifact upload failed:Insufficient disk space”,我只是增加了步数..这对我来说很奇怪。cloudwatch日志中没有错误,我的最后一条是:
成功生成图:['pipeline.config', 'tflite_graph.pb', 'frozen_inference_graph.pb', 'tflite_graph.pbtxt', 'tflite_quant_graph.tflite', 'saved_model', 'hyperparameters.json', 'label_map.pbtxt' , 'model.ckpt.data-00000-of-00001', 'model.ckpt.meta', 'model.ckpt.index', '检查点']
这基本上意味着这些文件已经创建,因为很简单:
graph_files = os.listdir(model_path + '/graph')
指的是哪个磁盘空间?还看一下训练作业,我从磁盘利用率图表中看到上升曲线在 80% 处达到峰值......我希望在成功创建上述文件后,所有内容都上传到我的 s3 存储桶,没有磁盘空间问题当下。为什么 50.000 步有效而 80.000 步无效?据我了解,训练步骤的数量不会影响模型文件的大小。
解决方案
将卷大小添加到在创建时选择“每个实例的附加存储量 (gb)”到 5GB 的训练作业中似乎可以解决问题。我仍然不明白为什么,但问题似乎解决了。
推荐阅读
- azure-devops - Azure DevOps ServiceConnection 角色 Rest API
- php - Symfony 4/Doctrine 2 - 获取真实对象而不是代理
- c# - 无法组合两个 IQueryAble
- apache-spark - Spark不断将偏移重置为X
- docker - 如何使用具有多个副本的卷运行 docker 服务
- fiware-orion - Orion Context Broker 如何按名称过滤对象包含关键字
- android - 在 iOS 上获取购买和订阅信息
- excel - listobjects 所需的 VBA 对象
- python-3.x - TypeError: contact() got an unexpected keyword argument 'name'
- css - Sass color lighten/darken function