python - 我应该如何使用 Tensorflow 进行分布式训练？

问题描述

我有2台电脑。我怎样才能对它们进行分布式训练并看到它的收敛速度快 2 倍？我得到了“分布式示例”，但这个“示例”不包含有关计算机设置的信息。我得到了一些关于设置TF_CONFIG的话，但同样，两台计算机应该做什么非常不清楚。我无法在两台计算机上运行相同的脚本。我希望一台计算机应该等待另一台计算机向它发送批次，但我没有看到任何线索，如何为此做准备......

我在一台电脑上写（calculon）

os.environ["TF_CONFIG"] = json.dumps({
    "cluster": {
        "worker": ["calculon:2222", "lagrangian:2222"]
    },
   "task": {"type": "chief", "index": 0}
})

在另一台计算机上 ( lagrangian)

os.environ["TF_CONFIG"] = json.dumps({
    "cluster": {
        "worker": ["calculon:2222", "lagrangian:2222"]
    },
   "task": {"type": "worker", "index": 1}
})

我应该2222在两台计算机上打开端口吗？sctript 会在什么时候开始监听这个端口？“分布式示例”中的哪一行开始收听？

标签： pythontensorflowdistributed-computing

python - 我应该如何使用 Tensorflow 进行分布式训练？

问题描述

解决方案

推荐阅读