首页 > 解决方案 > 如何修复 AI Platform GPU 分布式训练作业中未找到的训练包

问题描述

我正在尝试在 AI Platform 上训练 Tensorflow Estimator。该模型在本地训练非常好,尽管速度非常慢,但是当我尝试在 AI Platform 上运行分布式 GPU 训练时,我遇到了这个错误:

CommandException: No URLs matched: gs://path/.../trainer-0.1.tar.gz

trainer根据 Google Cloud AI Platform 的建议,我的代码与模块一起打包。任何帮助,将不胜感激!

标签: tensorflowgoogle-cloud-ml

解决方案


我实际上能够解决我的问题:如果我不设置临时存储桶,那么存储检查点的模型目录将在工作人员副本能够下载培训师之前覆盖培训师包!我不确定当工作人员副本还没有全部下载培训师时,检查点是如何开始存储的,但是添加与我的模型目录不同的暂存桶解决了这个问题。


推荐阅读