python - 我应该如何使用 Tensorflow 进行分布式训练?
问题描述
我有2台电脑。我怎样才能对它们进行分布式训练并看到它的收敛速度快 2 倍?我得到了“分布式示例”,但这个“示例”不包含有关计算机设置的信息。我得到了一些关于设置TF_CONFIG
的话,但同样,两台计算机应该做什么非常不清楚。我无法在两台计算机上运行相同的脚本。我希望一台计算机应该等待另一台计算机向它发送批次,但我没有看到任何线索,如何为此做准备......
我在一台电脑上写(calculon
)
os.environ["TF_CONFIG"] = json.dumps({
"cluster": {
"worker": ["calculon:2222", "lagrangian:2222"]
},
"task": {"type": "chief", "index": 0}
})
在另一台计算机上 ( lagrangian
)
os.environ["TF_CONFIG"] = json.dumps({
"cluster": {
"worker": ["calculon:2222", "lagrangian:2222"]
},
"task": {"type": "worker", "index": 1}
})
我应该2222
在两台计算机上打开端口吗?sctript 会在什么时候开始监听这个端口?“分布式示例”中的哪一行开始收听?
解决方案
推荐阅读
- flutter - 如何在飞镖中访问子类的变量
- pandas - 将随机日期时间添加到时间戳
- visual-studio-code - 有没有标准的方式来发布 VS Code 扩展中的预览功能?
- javascript - Google 表格脚本编辑器 HTML 用户界面无法读取返回类型
- mysql - 如何将控制流添加到 mysql 函数中?
- android - 具有选定背景颜色的导航抽屉项目分隔线
- firebase - 通过 API open appstore 生成的 firebase 动态链接
- heroku - 运行时如何查看 Gunicorn 日志?
- python - Windows API“CreateWindowEx”能否在 Python (3.6.8) 64 位使用的 DLL 中工作?
- python - 无法更改 numpy 数组中的值