首页 > 解决方案 > Key health metrics for Apache Flink

问题描述

I'm trying to figure out what are the key health metrics for Apache Flink. Flink documentation provides huge list of metrics and it's hard to figure out important ones.

标签: monitoringapache-flink

解决方案


一些建议:

如果您使用的是 Kafka,则 Kafka 客户端指标会被转发到 Flink 的指标系统中。如果您的工作未能跟上数据的流入,监控消费者滞后将让您知道。

如果您的工作没有取得进展,查看currentLowWatermark可以帮助您确定哪些任务阻碍了进度。

留意检查点是明智的。lastCheckpointDuration, lastCheckpointSize, 并且numberOf{Completed,Failed,InProgress}Checkpoints在这里很有用。

uptime并且downtime可以帮助您跟踪您的工作花费了多少时间来恢复而不是实际运行。

社区最近一直在讨论我们如何才能更好地检测背压。您可以在开发邮件列表档案中找到该讨论


推荐阅读