google-cloud-platform - 修复正常运行时间检查后,警报策略使事件保持开放
问题描述
自 9.Jun.21 以来,我遇到了 GCP 警报策略问题,即在正常运行时间检查恢复正常状态后,警报策略保持激活状态。
警报是在前一段时间配置的,正常运行时间检查全部显示为绿色,但自此日期以来我已经打开了 7 个事件。
还有其他人遇到同样的问题吗?
解决方案
您的案例似乎如下所述,如果是这种情况,这是导致您的事件在 7 天后关闭的预期行为。
部分指标数据:缺失或延迟的指标数据可能导致策略不发出警报和事件不关闭。来自第三方云提供商的数据延迟可能高达 30 分钟,其中 5-15 分钟的延迟最为常见。长时间的延迟(比持续时间窗口更长)可能导致条件进入“未知”状态。当数据最终到达时,Cloud Monitoring 可能已经丢失了一些最近的情况历史记录。稍后对时间序列数据的检查可能不会发现这个问题,因为一旦数据到达就没有延迟的证据
有时会发生这种情况,在超过 30 分钟的中断(如上所述)中,您的警报策略进入上述“未知”状态,导致指标报告完全丢失(消失),导致监控丢失历史记录健康)状况。一旦恢复,默认情况下它会保留最后一个可读值,在这种情况下,由于指标报告完全停止,该工具将其视为一个空值,转换为 0.000。
即使指标报告回正常状态和速度,这种未知状态行为也会导致工具“观察到没有变化”,这会强制执行“7 天没有可观察到的变化”策略,您可以在此处阅读管理事件:事件将自动如果系统观察到条件不再满足或经过 7 天而没有观察到条件继续满足,则关闭。
推荐阅读
- r - 从具有最大和的向量中查找数组索引
- yahoo-api - 如何处理 Yahoo API 的弃用?
- sql - django 创建两个数据库条目之间的关系
- javascript - EcmaScript 是否有“reverse if notation”?
- javascript - 有没有办法确保您在 Google 地球引擎的帮助下创建的马赛克是完整的?
- python - 无网格 A* 寻路算法。成本函数的问题
- excel - VBA:从活动单元格值中减去一个单元格
- css - 将中间 flex 项目的固定位置居中
- html - RegexReplace Google Sheets - 文本中的引用 - 从图像 html 中删除标题和 alt
- regression - Stata clogit 命令与具有手动固定效果的 logit 不可(相当)重现:系数加倍