首页 > 解决方案 > 我应该如何使用 Tensorflow 进行分布式训练?

问题描述

我有2台电脑。我怎样才能对它们进行分布式训练并看到它的收敛速度快 2 倍?我得到了“分布式示例”,但这个“示例”不包含有关计算机设置的信息。我得到了一些关于设置TF_CONFIG的话,但同样,两台计算机应该做什么非常不清楚。我无法在两台计算机上运行相同的脚本。我希望一台计算机应该等待另一台计算机向它发送批次,但我没有看到任何线索,如何为此做准备......

我在一台电脑上写(calculon

os.environ["TF_CONFIG"] = json.dumps({
    "cluster": {
        "worker": ["calculon:2222", "lagrangian:2222"]
    },
   "task": {"type": "chief", "index": 0}
})

在另一台计算机上 ( lagrangian)

os.environ["TF_CONFIG"] = json.dumps({
    "cluster": {
        "worker": ["calculon:2222", "lagrangian:2222"]
    },
   "task": {"type": "worker", "index": 1}
})

我应该2222在两台计算机上打开端口吗?sctript 会在什么时候开始监听这个端口?“分布式示例”中的哪一行开始收听?

标签: pythontensorflowdistributed-computing

解决方案


推荐阅读