monitoring - Key health metrics for Apache Flink
问题描述
I'm trying to figure out what are the key health metrics for Apache Flink. Flink documentation provides huge list of metrics and it's hard to figure out important ones.
解决方案
一些建议:
如果您使用的是 Kafka,则 Kafka 客户端指标会被转发到 Flink 的指标系统中。如果您的工作未能跟上数据的流入,监控消费者滞后将让您知道。
如果您的工作没有取得进展,查看currentLowWatermark
可以帮助您确定哪些任务阻碍了进度。
留意检查点是明智的。lastCheckpointDuration
, lastCheckpointSize
, 并且numberOf{Completed,Failed,InProgress}Checkpoints
在这里很有用。
uptime
并且downtime
可以帮助您跟踪您的工作花费了多少时间来恢复而不是实际运行。
社区最近一直在讨论我们如何才能更好地检测背压。您可以在开发邮件列表档案中找到该讨论。
推荐阅读
- python - Pygame,如何在透明层上显示文本?
- javascript - 如何在 Safari 的 svg x 属性中使用 calc()?
- flutter - 如何在颤动中制作渐变阴影按钮?
- android - 如何更改系统通知抽屉的颜色?
- java - 标题栏是否有一些 jframe 空间?
- vue.js - 日期选择器有时会卡住,我没有错误 Vuejs
- reactjs - 离线网络推送通知
- recursion - 给定 Prolog 中的元素列表,创建所有可能的 AVL 树
- apache-nifi - 为什么 Oracle 数据库查询(Oracle 数据库表列中的长数据类型)不在 QueryDatabaseTable Apache Nifi 中执行?
- amazon-s3 - 使用 lambda(boto 脚本)的跨账户 s3 存储桶同步