首页 > 解决方案 > 修复正常运行时间检查后,警报策略使事件保持开放

问题描述

自 9.Jun.21 以来,我遇到了 GCP 警报策略问题,即在正常运行时间检查恢复正常状态后,警报策略保持激活状态。

警报是在前一段时间配置的,正常运行时间检查全部显示为绿色,但自此日期以来我已经打开了 7 个事件。

还有其他人遇到同样的问题吗?

标签: google-cloud-platformalertmonitoring

解决方案


您的案例似乎如下所述,如果是这种情况,这是导致您的事件在 7 天后关闭的预期行为。

部分指标数据:缺失或延迟的指标数据可能导致策略不发出警报和事件不关闭。来自第三方云提供商的数据延迟可能高达 30 分钟,其中 5-15 分钟的延迟最为常见。长时间的延迟(比持续时间窗口更长)可能导致条件进入“未知”状态。当数据最终到达时,Cloud Monitoring 可能已经丢失了一些最近的情况历史记录。稍后对时间序列数据的检查可能不会发现这个问题,因为一旦数据到达就没有延迟的证据

有时会发生这种情况,在超过 30 分钟的中断(如上所述)中,您的警报策略进入上述“未知”状态,导致指标报告完全丢失(消失),导致监控丢失历史记录健康)状况。一旦恢复,默认情况下它会保留最后一个可读值,在这种情况下,由于指标报告完全停止,该工具将其视为一个空值,转换为 0.000。

即使指标报告回正常状态和速度,这种未知状态行为也会导致工具“观察到没有变化”,这会强制执行“7 天没有可观察到的变化”策略,您可以在此处阅读管理事件:事件将自动如果系统观察到条件不再满足或经过 7 天而没有观察到条件继续满足,则关闭。


推荐阅读