首页 > 解决方案 > 如果单个任务管理器崩溃,是否应该重新启动整个集群?

问题描述

我们正在运行一个带有 2 个作业管理器和 3 个任务管理器的独立 Flink 集群。每当 TM 崩溃时,我们只需重新启动该特定 TM 并继续处理。

但是看了这个问题的评论,好像我们需要重启组成集群的所有5个节点来处理单个TM的故障。我读对了吗?如果我们只重启崩溃的 TM 并让健康的 TM 按原样运行会产生什么后果?

标签: apache-flinkflink-streaming

解决方案


对不起,如果我在其他地方的回答不清楚,但你在做什么很好。也许更准确的说法是工作正在“重置”,这是自动发生的。由于检查点是全局一致的,因此所有任务管理器从检查点中记录的状态回退并重新开始处理是很重要的,但是 Flink 会为您处理这件事(一旦必要的资源再次可用)。


推荐阅读