pytorch - pytorch多机训练超时?
问题描述
pytorch多机训练出现错误:
RuntimeError: [/pytorch/third_party/gloo/gloo/transport/tcp/unbound_buffer.cc:136] Timed out waiting 1800000ms for send operation to complete
我将超时限制扩大到 3 天,仍然出现同样的错误。
如何处理?谢谢~
dist.init_process_group(
backend=args.dist_backend,
init_method=args.dist_url,
world_size=args.world_size, rank=args.rank,
timeout=datetime.timedelta(days=3)
)
解决方案
推荐阅读
- python - 使用带有 plotly.express facetrow / facetcol 的固定比率轴
- javascript - 遇到两个key相同的孩子(react-native,js)
- javascript - TypeError:无法解构“未定义”或“空”的属性“主体”
- r - macOS 全新安装的 R - devtools 出现段错误 -
- d3.js - 向树 D3.js 中的链接添加标签
- java - Spring LocaleContextHolder 未正确设置
- c# - .NET Core Entity Framework - 异步写入数据库
- scala - 在构建中导入 sbt 和类型安全 (IntelliJ)
- android - 无法在 xml 中将 double 转换为 int
- c - 将 ASCII 连接到字符串以进行比较