首页 > 解决方案 > 使 Dask-Yarn 对节点故障更加稳健

问题描述

我们使用 Dask 在 EMR 集群中分配计算工作。我们正在使用 Dask-Yarn。我们注意到,当我们遇到节点故障时,有时这些故障会导致运行调度程序的容器中断,我们的作业也会失败。我打算将调度程序移动到与主要 python 应用程序相同的进程中本地运行以增加健壮性,但后来我意识到 ApplicationMaster也在YARN 容器中运行,并且如果它突然被杀死也会关闭工作。

我在这里错过了有关 Dask 集群的健壮性的一些东西吗?如果 ApplicationMaster 突然终止,有没有办法让它重新启动,而不导致 Dask 集群结束?如果做不到这一点,是否可以让 Scheduler 和 ApplicationMaster 容器在同一个节点上运行,以便在该节点被杀死的情况下它们都会失败?

标签: pythonhadoop-yarndaskdask-distributed

解决方案


推荐阅读