python - 使 Dask-Yarn 对节点故障更加稳健
问题描述
我们使用 Dask 在 EMR 集群中分配计算工作。我们正在使用 Dask-Yarn。我们注意到,当我们遇到节点故障时,有时这些故障会导致运行调度程序的容器中断,我们的作业也会失败。我打算将调度程序移动到与主要 python 应用程序相同的进程中本地运行以增加健壮性,但后来我意识到 ApplicationMaster也在YARN 容器中运行,并且如果它突然被杀死也会关闭工作。
我在这里错过了有关 Dask 集群的健壮性的一些东西吗?如果 ApplicationMaster 突然终止,有没有办法让它重新启动,而不导致 Dask 集群结束?如果做不到这一点,是否可以让 Scheduler 和 ApplicationMaster 容器在同一个节点上运行,以便在该节点被杀死的情况下它们都会失败?
解决方案
推荐阅读
- winapi - 为什么 FindWindowEx 找不到工具提示类
- c# - 等待调用进入异常
- dataframe - 如果找不到元素,beautifulsoup 如何故意添加 return none
- php - 如何在recyclerview中显示为特定事件或项目注册的用户计数并在android的textview上显示?
- python - CS1301xl Computing in Python 我练习考试抵押问题的公式可能不正确?
- oauth-2.0 - IdentityServer4 JWT范围作为空格分隔的字符串而不是数组?
- flutter - 如何在飞镖/颤振中计算 GeoJson 几何区域
- java - 我在 2 个不同的 hazelcast 成员中有相同的实体(例如:“mapOfA,mapOfB”)。我想从一个成员同步更新这个对象。可能吗?
- regex - 结合2个正则表达式
- android - 如何创建类似嵌套标签栏的 Play 商店?