首页 > 解决方案 > 如何在 torch.nn.parallel.DistributedDataParallel 中设置环境变量?

问题描述

我正在尝试使用分布式数据并行性训练我的代码,我已经使用分布式数据并行进行了训练torch.nn.DataParallel,现在我想看看如果我使用分布式数据并行进行训练,我可以在训练速度方面获得多少收益,torch.nn.parallel.DistributedDataParallel因为我在许多页面上阅读过使用 DistributedDataParallel 更好。因此,我遵循了其中一个示例,但我不确定如何设置以下环境变量 (os.environ['MASTER_ADDR']os.environ['MASTER_PORT']),因为我使用的是云服务,所以我不确定我的代码被分配到哪个特定节点来训练我的模型。谁能帮我设置这些变量?

标签: pytorch

解决方案


推荐阅读