首页 > 解决方案 > flink checkpoint E2E 持续时间太长

问题描述

检查点截图

一台机器需要很长时间才能检查点,但与其他机器的状态大小大致相同,这是由于数据漂移还是其他原因?(数据按用户分组)

标签: apache-flink

解决方案


有些东西不堪重负。要找出问题出在哪里,请查找延迟检查点屏障到达该子任务的背压,或延迟该子任务完成快照的资源争用。

像这样的不对称通常是热键的指示——例如,一个用户有很多事件。


推荐阅读