apache-flink - 使用 Zookeeper 进行自动灾难恢复的高可用性
问题描述
我们现在正在研究如何实现 Flink 的高可用性,以及如何在所有 DC 宕机时支持灾难场景中的自动恢复。我们有 DC1,我们通常希望完成工作,还有 DC2,它更偏远,我们希望只有在 DC1 关闭时才能去那里工作。
我们检查了两个选项,并很高兴听到有关另一种实现此目标的建议的反馈:
两个数据中心上的两个独立的 Zookeeper 集群。只有 DC1 上的集群在运行,并且在离线过程中将状态复制到 DC2。为了实现自动恢复,我们需要使用某种看门狗来检查 DC1 的可用性,如果它关闭将启动 DC2(如果 DC2 关闭,则稍后相同)。有推荐的工具吗?
Zookeeper“拉伸集群”跨数据中心——在 DC1 上有 2 个节点,在 DC2 上有 2 个节点和一个观察者节点。此外,DC1 上的 flink 集群 jobmabnager1 和 DC2 上的 jobmanager2。这样当 DC1 宕机时,zookeeper 会自动注意到这一点,并将工作转移到 DC2 上的 jobmanager2。但是我们希望 zookeeper 领导者和 flink jobmanager 领导者(主要)来自 DC1——除非它关闭。有没有办法做到这一点?
谢谢并恭祝安康,
托维
解决方案
推荐阅读
- wso2 - 是否可以通过 DSS payloadFactory+Call 在 Enterprise Integrator 中使用事务中介?
- tensorflow - 语义图像分割 NN (DeepLabV3+) 的内存过多问题
- python - Numpy:从一个numpy数组中减去1到每个元素
- r - 如果所有汇总值都是 NA,则 dplyr summarize 保持 NA
- amazon-web-services - AWS 实时数据获取
- angular - 角度路由从 url 更改 #
- c++ - 获取错误 openssl/rsa.h:没有这样的文件或目录
- php - XAMPP 重定向到登录窗口
- image - MATLAB中两幅图像之间的信噪比
- mongodb - 按 {$natural: 1} 排序是否有意义