首页 > 解决方案 > Pytorch 中的 Gloo 用于 GPU 张量集体通信

问题描述

对于 Pytorch 中的 Gloo 分布式,如本文档https://pytorch.org/docs/stable/distributed.html所示,以下代码是否会获得使用 CUDA-aware MPI 的性能优势?(例如,绕过 CPU 通过 PCIe 进行 GPU 到 GPU 传输)

group = dist.new_group([0, 1], backend="gloo")
dist.all_reduce(gpu_tensor_a, op=dist.ReduceOp.SUM, group=group)

标签: pytorchgloo

解决方案


推荐阅读