首页 > 解决方案 > 容器出现故障时发出警报

问题描述

我在使用 prometheus 和 cadvisor exporter 设置监控堆栈时遇到了问题。当容器意外关闭时(我的意思是,这可以通过重新启动:除非停止标志来处理?)或容器无法启动时,我需要从 alertmanager 接收警报。我可以看到 cadvisor 正在公开一个名为 container_last_seen 的指标,我可以将其与当前时间进行比较,并在值超过某个阈值时发出警报,比如 60 秒。

问题是,cadvisor exporter 只保留数据 5 分钟,所以即使容器在此时间之后没有运行,它也被报告为已解决的问题,因为该指标不再存在。

如果我有一个特定的容器要监控(按容器名称过滤),这不会是一个问题,但是我有不同的容器和不同的项目正在运行,所以我需要一些通用的东西。有没有办法解决这个问题?

我是否应该添加另一个出口商(Telegraf)?

标签: dockerprometheusprometheus-alertmanagercadvisor

解决方案


推荐阅读