amazon-sagemaker - 成功训练后 AWS Sagemaker 失败“ClientError: Artifact upload failed:Insufficient disk space”

问题描述

我正在使用自定义 docker 映像训练网络。第一次训练 50.000 步一切正常，当我尝试增加到 80.000 时，我收到错误：“ClientError: Artifact upload failed:Insufficient disk space”，我只是增加了步数..这对我来说很奇怪。cloudwatch日志中没有错误，我的最后一条是：

成功生成图：['pipeline.config', 'tflite_graph.pb', 'frozen_inference_graph.pb', 'tflite_graph.pbtxt', 'tflite_quant_graph.tflite', 'saved_model', 'hyperparameters.json', 'label_map.pbtxt' , 'model.ckpt.data-00000-of-00001', 'model.ckpt.meta', 'model.ckpt.index', '检查点']

这基本上意味着这些文件已经创建，因为很简单：

    graph_files = os.listdir(model_path + '/graph')

指的是哪个磁盘空间？还看一下训练作业，我从磁盘利用率图表中看到上升曲线在 80% 处达到峰值......我希望在成功创建上述文件后，所有内容都上传到我的 s3 存储桶，没有磁盘空间问题当下。为什么 50.000 步有效而 80.000 步无效？据我了解，训练步骤的数量不会影响模型文件的大小。

标签： amazon-sagemaker

amazon-sagemaker - 成功训练后 AWS Sagemaker 失败“ClientError: Artifact upload failed:Insufficient disk space”

问题描述

解决方案

推荐阅读