tensorflow - 运行 Horovod 训练作业,遇到这个错误:只有秩的子集在提交张量,这会导致死锁
问题描述
一个或多个张量已提交以按等级子集减少、收集或广播,并且正在等待剩余等级超过 60 秒。这可能表明不同的 rank 试图提交不同的张量,或者只有 rank 的子集在提交张量,这将导致死锁。
解决方案
推荐阅读
- html - 如何使用空格减少空格:css 属性而不更改文本中的行高
标签
- asp.net-mvc - 如何使用 ASP.Net MVC 将对象值传输到模态类?
- cordova - Cordova Windows 应用程序未使用依赖项文件夹构建 appx
- vuetify.js - 如何自定义 Vuetify?
- c# - 使用 CsvHelper(或类似库)从变量中读取 CSV
- r - 定义因子数据的顺序
- ruby-on-rails - 如何从 Rails 应用程序内部运行 heroku restart?
- python - 用自己的数字替换每个字母
- apache-flink - 如何从 Apache Flink 的命令行传递和覆盖配置属性?
- python - 使用 tkinter 创建 python GUI 并尝试使用 OOP