首页 > 解决方案 > 成功训练后 AWS Sagemaker 失败“ClientError: Artifact upload failed:Insufficient disk space”

问题描述

我正在使用自定义 docker 映像训练网络。第一次训练 50.000 步一切正常,当我尝试增加到 80.000 时,我收到错误:“ClientError: Artifact upload failed:Insufficient disk space”,我只是增加了步数..这对我来说很奇怪。cloudwatch日志中没有错误,我的最后一条是:

成功生成图:['pipeline.config', 'tflite_graph.pb', 'frozen_inference_graph.pb', 'tflite_graph.pbtxt', 'tflite_quant_graph.tflite', 'saved_model', 'hyperparameters.json', 'label_map.pbtxt' , 'model.ckpt.data-00000-of-00001', 'model.ckpt.meta', 'model.ckpt.index', '检查点']

这基本上意味着这些文件已经创建,因为很简单:

    graph_files = os.listdir(model_path + '/graph')

指的是哪个磁盘空间?还看一下训练作业,我从磁盘利用率图表中看到上升曲线在 80% 处达到峰值......我希望在成功创建上述文件后,所有内容都上传到我的 s3 存储桶,没有磁盘空间问题当下。为什么 50.000 步有效而 80.000 步无效?据我了解,训练步骤的数量不会影响模型文件的大小。

标签: amazon-sagemaker

解决方案


将卷大小添加到在创建时选择“每个实例的附加存储量 (gb)”到 5GB 的训练作业中似乎可以解决问题。我仍然不明白为什么,但问题似乎解决了。


推荐阅读