google-cloud-dataflow - Apache Beam 中的推测执行
问题描述
我在 Apache Beam 文档中没有看到任何关于推测执行的内容。但是这篇文章声称它有类似的东西。
ParDo 转换是容错的,即如果它崩溃,它会重新运行。转换还有一个推测执行的概念(阅读 Spark 中的推测执行,两者都是相似的基础知识)。对给定数据集子集的处理可以随时在 2 个不同的工作人员上执行。来自最快工人的结果稍后会被使用,而速度较慢的工人会被丢弃。在这种情况下,重要的是要强调 ParDo 实现必须意识到对同一数据子集的并行执行。
这是真的吗?
解决方案
我相信这speculative execution
是数据处理引擎的责任,而不是 Beam。但是,Beam 转换的要求之一是幂等,因为Beam 模型不能保证您的用户代码可能被调用或重试的次数(请参阅转换要求)。
推荐阅读
- r - ifelse 语句在此嵌套循环中返回错误
- python - 具有相同输入大小的快速和非常慢的 scipy.signal.resample
- c# - 我想在 for loop.so 中访问 asp.net 服务器控件的“ids”,所以我可以用单行设置所有控件的值
- dictionary - 使用连接将流利的结果映射到结构
- postgresql - 加快 PostgreSQL 中名称匹配的查询
- javascript - 如何正确获取 JSON 对象来代替 [Object object]?
- android - 用于发现蓝牙设备不工作的广播接收器
- python - 列表列表的频率计数
- webgl - 几何对 WebGL 中最终纹理输出的影响是什么?
- java - 确定 Java 程序的输入源