pytorch - 如何在 torch.nn.parallel.DistributedDataParallel 中设置环境变量?
问题描述
我正在尝试使用分布式数据并行性训练我的代码,我已经使用分布式数据并行进行了训练torch.nn.DataParallel
,现在我想看看如果我使用分布式数据并行进行训练,我可以在训练速度方面获得多少收益,torch.nn.parallel.DistributedDataParallel
因为我在许多页面上阅读过使用 DistributedDataParallel 更好。因此,我遵循了其中一个示例,但我不确定如何设置以下环境变量 (os.environ['MASTER_ADDR']
和os.environ['MASTER_PORT']
),因为我使用的是云服务,所以我不确定我的代码被分配到哪个特定节点来训练我的模型。谁能帮我设置这些变量?
解决方案
推荐阅读
- laravel - Laravel 中间件可以同时充当前后中间件吗?
- kubernetes - 如何自定义 AKS 上 kube-scheduler 的行为?
- python - 为什么 word2vec 中的 most_similar 不考虑该术语本身?
- c++ - 创建一个以创建时间为前缀的文件夹(C++)
- typescript - 内容丰富的 SDK、React 功能组件、打字稿和 react-quill - 无法访问 quill 历史记录?
- api - 我在哪里可以找到 jsonlds(上下文)以便在信任平台中创建产品?
- python - Keras 中的自定义损失函数(IoU 损失函数)和梯度误差?
- dynamic - 数据更改后重新绘制动态不呈现
- python - 如何向鼠标旋转精灵并移动它?
- android - Android Studio 4.1版本看不到flutter、dart插件