docker - 容器出现故障时发出警报
问题描述
我在使用 prometheus 和 cadvisor exporter 设置监控堆栈时遇到了问题。当容器意外关闭时(我的意思是,这可以通过重新启动:除非停止标志来处理?)或容器无法启动时,我需要从 alertmanager 接收警报。我可以看到 cadvisor 正在公开一个名为 container_last_seen 的指标,我可以将其与当前时间进行比较,并在值超过某个阈值时发出警报,比如 60 秒。
问题是,cadvisor exporter 只保留数据 5 分钟,所以即使容器在此时间之后没有运行,它也被报告为已解决的问题,因为该指标不再存在。
如果我有一个特定的容器要监控(按容器名称过滤),这不会是一个问题,但是我有不同的容器和不同的项目正在运行,所以我需要一些通用的东西。有没有办法解决这个问题?
我是否应该添加另一个出口商(Telegraf)?
解决方案
推荐阅读
- python - 如何加快即使使用 Numba 也很慢的计算
- javascript - REACT JS:如何在地图内向尚未启动的数组添加键?
- solidity - 从 ERC271 合约继承有什么意义?
- c# - asp-for 标签助手显示“CS1061”错误
- flutter - 如何向免费用户显示不同的页面,向付费用户显示不同的页面
- r - 使用 Rselenium 进行网页抓取并保存为数据框时创建“for”循环
- alexa - Alexa 按时讲话的技巧是什么?
- android - 应用打开时单击后 Azure 推送通知未关闭
- php - Google oauth 致命错误:count() 使用 php 8.0.9 版本
- python - 我的代码正在独立运行,但不会在我的整个项目中运行/打印