apache-beam - Apache Beam Fault Tolerance 如何在全局 Windows 上工作?
问题描述
我正在使用 Beam Python 构建管道。我有来自 PubSub 的带有 userId 和 buttonId 的事件流。我有一个全局窗口,用于维护所有用户单击按钮的次数。
如果一段时间后服务器重新启动运行 Direct Runner/Flink Runner,全局 windows 状态是否会恢复到管道中?
Beam 中的容错是如何工作的?
如何跟踪 PubSub 的偏移量/检查点?
Beam 文档指出:
状态的存储和容错:由于状态是每个键和窗口的,因此您希望同时处理的键和窗口越多,您将产生的存储就越多”。
但是,我找不到更多关于此的信息。
解决方案
对于您问题的第一部分,beam 通过耗尽处理流服务中的异常,此处介绍了一些详细信息https://cloud.google.com/dataflow/docs/guides/stopping-a-pipeline
虽然不确定这是否回答了您关于偏移量/检查点的问题。
推荐阅读
- c++ - C++'系统无法执行指定的程序'错误信息
- regex - 正则表达式从字符串中提取所有有效的 IPv4
- r - 在 R 中,我有一列带有文本。如何在 R 中编写一个脚本来计算特定单词的频率?
- reactjs - Apollo Client React 和当地最佳实践
- oauth-2.0 - 如果范围是 graph.microsoft.com,则访问令牌验证失败
- c++ - 在 C++ 中使用 inline 和 constexpr
- wpf - 迭代期间的WPF列表修改?
- python - Selenium Chrome tap 在从 werkzeug 服务器执行后崩溃
- php - 为什么在我对数组进行 JSON 编码时出现 \r\n
- java - JRE 中所有可用的图像是什么?