apache-flink - 如果单个任务管理器崩溃,是否应该重新启动整个集群?
问题描述
我们正在运行一个带有 2 个作业管理器和 3 个任务管理器的独立 Flink 集群。每当 TM 崩溃时,我们只需重新启动该特定 TM 并继续处理。
但是看了这个问题的评论,好像我们需要重启组成集群的所有5个节点来处理单个TM的故障。我读对了吗?如果我们只重启崩溃的 TM 并让健康的 TM 按原样运行会产生什么后果?
解决方案
对不起,如果我在其他地方的回答不清楚,但你在做什么很好。也许更准确的说法是工作正在“重置”,这是自动发生的。由于检查点是全局一致的,因此所有任务管理器从检查点中记录的状态回退并重新开始处理是很重要的,但是 Flink 会为您处理这件事(一旦必要的资源再次可用)。
推荐阅读
- node.js - nodejs azure keyvault 证书
- java - 将 Blockly 生成的 XML 代码解析为 Java 对象
- arrays - 在过滤文档中使用 `filter`、`some` 和 `includes` 未按预期工作
- sql - 如何在类似 SQL 的函数中使用 sysdate 命令
- android - AndroidX:未注册仪器!必须在注册仪器下运行
- excel - Excel VBA:插入新行时自动排序
- html - 使用 UTF-8 编码和包含换行符的字符串从 Javascript 生成 CSV 文件
- ruby-on-rails - 安排没有重复的后台作业
- python - python 模块导入(为什么会这样?)
- asp.net - 如何解决 system.runtime.interopservices.com 异常错误