tensorflow - 如何修复 AI Platform GPU 分布式训练作业中未找到的训练包
问题描述
我正在尝试在 AI Platform 上训练 Tensorflow Estimator。该模型在本地训练非常好,尽管速度非常慢,但是当我尝试在 AI Platform 上运行分布式 GPU 训练时,我遇到了这个错误:
CommandException: No URLs matched: gs://path/.../trainer-0.1.tar.gz
trainer
根据 Google Cloud AI Platform 的建议,我的代码与模块一起打包。任何帮助,将不胜感激!
解决方案
我实际上能够解决我的问题:如果我不设置临时存储桶,那么存储检查点的模型目录将在工作人员副本能够下载培训师之前覆盖培训师包!我不确定当工作人员副本还没有全部下载培训师时,检查点是如何开始存储的,但是添加与我的模型目录不同的暂存桶解决了这个问题。
推荐阅读
- vue.js - laravel-mix 升级后应用不再看到全局变量
- sharepoint-2013 - SharePoint 2013:使用 StratusForms 我删除了“NewForm.aspx”,现在只有新的“NewForm”不起作用
- monitoring - 高标签基数但低度量/标签计数和不频繁采样是 Prometheus 可接受的用例吗?
- c# - 寻找一种使用 Entity Framework Core 为每一行检索一组多对多子项的有效方法
- sql-server - 用于全文搜索的自定义过滤器。IFilter 实现
- javascript - 对数组键值对象的数组进行排序
- telegram-bot - 电报机器人 Python
- android - 使用 Kotlin 在 Recycler View 中显示 JSON 值
- php - call_user_func_array("shell_exec", ...) 在 php 中不起作用
- javascript - JavaScript Object.hasOwnProperty() 问题