首页 > 解决方案 > Horovod 弹性调整运行时的工人数量

问题描述

我一直在 docker 中同时使用 TensorFlow 和 PyTorch 来使用 Horovod,正如 Horovod docker 中所解释的,在固定数量的容器下,每件事都可以正常工作

我已经检查了 Horovod Elastic Demos Horovod 示例,但它们没有显示如何在运行时更改工作人员的数量。

我需要知道如何在运行时增加或减少工作人员的数量?

标签: dockertensorflowpytorchmpihorovod

解决方案


为此,您需要一个特定于 Docker 的主机发现,它告诉 Elastic Horovod 所有可用容器。一种通用的方法是通过使用horovodrun和提供主机发现脚本--host-discovery-script。调用时,脚本会返回可用主机的列表。请参阅Elastic Horovod文档的使用 horovodrun 运行部分。

在不久的将来,Horovod 中将内置服务提供商特定的主机发现,因此用户无需为通用提供商实现脚本。


推荐阅读