docker - Horovod 弹性调整运行时的工人数量
问题描述
我一直在 docker 中同时使用 TensorFlow 和 PyTorch 来使用 Horovod,正如 Horovod docker 中所解释的,在固定数量的容器下,每件事都可以正常工作
我已经检查了 Horovod Elastic Demos Horovod 示例,但它们没有显示如何在运行时更改工作人员的数量。
我需要知道如何在运行时增加或减少工作人员的数量?
解决方案
为此,您需要一个特定于 Docker 的主机发现,它告诉 Elastic Horovod 所有可用容器。一种通用的方法是通过使用horovodrun
和提供主机发现脚本--host-discovery-script
。调用时,脚本会返回可用主机的列表。请参阅Elastic Horovod文档的使用 horovodrun 运行部分。
在不久的将来,Horovod 中将内置服务提供商特定的主机发现,因此用户无需为通用提供商实现脚本。
推荐阅读
- ruby-on-rails - 用于 REST API 的 Rails 控制器
- ruby-on-rails - NoMethodError:Psych:Module (I18n::InvalidLocaleData) 的未定义方法“unsafe_load”
- haskell - 有没有简单的方法可以用单子类型扩展简单类型的 lambda 演算?
- python - python pil 模块名称 pronlems
- tensorflow - Keras 中的自定义优化器实现
- powershell - 直接在计算机上更改活动目录没有活动目录的用户密码
- laravel-5 - Laravel 每日日志文件何时以及如何被删除?
- matlab - 如何逐步在批处理文件中运行for循环
- python - 当列子集中的所有列都满足条件时,Pandas 会丢弃行
- java - 在带有 Hibernates @Formula 注释的查询中使用实体的值