pytorch - 如何在 torch.nn.parallel.DistributedDataParallel 中设置环境变量？

问题描述

我正在尝试使用分布式数据并行性训练我的代码，我已经使用分布式数据并行进行了训练torch.nn.DataParallel，现在我想看看如果我使用分布式数据并行进行训练，我可以在训练速度方面获得多少收益，torch.nn.parallel.DistributedDataParallel因为我在许多页面上阅读过使用 DistributedDataParallel 更好。因此，我遵循了其中一个示例，但我不确定如何设置以下环境变量 (os.environ['MASTER_ADDR']和os.environ['MASTER_PORT'])，因为我使用的是云服务，所以我不确定我的代码被分配到哪个特定节点来训练我的模型。谁能帮我设置这些变量？

标签： pytorch

pytorch - 如何在 torch.nn.parallel.DistributedDataParallel 中设置环境变量？

问题描述

解决方案

推荐阅读