首页 > 解决方案 > 运行 Horovod 训练作业,遇到这个错误:只有秩的子集在提交张量,这会导致死锁

问题描述

一个或多个张量已提交以按等级子集减少、收集或广播,并且正在等待剩余等级超过 60 秒。这可能表明不同的 rank 试图提交不同的张量,或者只有 rank 的子集在提交张量,这将导致死锁。

标签: tensorflowhorovod

解决方案


推荐阅读