首页 > 解决方案 > 关于 Flink 的两个名词

问题描述

任何人都可以帮助验证以下项目的条款吗?

我所做的条款是否正确?非常感谢您的建议。

我目前正在参与编写一些关于 Flink 的文档。

标签: apache-flink

解决方案


我认为这些术语在某些情况下效果很好,但总的来说我有一些保留意见。例如,考虑批处理,或(重新)摄取流应用程序中的历史数据。“排队时间”是否有意义地描述了这种情况下事件时间和摄取时间之间的持续时间?也许,也许不是。或者考虑在中断后开始恢复时的情况:此时当前时间戳和窗口中最后一个事件之间的差异不是由于空闲源,而是由于停机时间。

在第一种情况下,感觉您的兴趣在于描述和测量不同的延迟来源。在这种情况下,我认为区分发布延迟(事件创建和事件在队列中存储之间的时间)、摄取延迟(发布到消息代理和随后摄取到 Flink 之间的时间)和processing delay,即 Flink 处理事件的时间。处理延迟是由水印、序列化、网络缓冲、检查点屏障对齐、两阶段提交等引起的。

我不太清楚idle time背后的意图,但也许这可以定义为自上次事件被摄取以来在 flink 源上经过的时间,或者相对于任何特定的操作员实例,自上次收到事件以来的时间。


推荐阅读