首页 > 解决方案 > pytorch多机训练超时?

问题描述

pytorch多机训练出现错误:

RuntimeError: [/pytorch/third_party/gloo/gloo/transport/tcp/unbound_buffer.cc:136] Timed out waiting 1800000ms for send operation to complete

我将超时限制扩大到 3 天,仍然出现同样的错误。

如何处理?谢谢~

dist.init_process_group(
    backend=args.dist_backend, 
    init_method=args.dist_url,
    world_size=args.world_size, rank=args.rank,
    timeout=datetime.timedelta(days=3)
)

标签: pytorchconv-neural-network

解决方案


推荐阅读