首页 > 解决方案 > gcp监视“任何时间序列违反”与“所有时间序列违反”

问题描述

在此处输入图像描述

“违反任何时间序列”和“违反所有时间序列”这两个选项有什么区别?我可以想象前者会轻松做什么,但我不知道后者会做什么。

所有时间序列?它的射程有多长?为什么它有一个for选项?

标签: google-cloud-platformmonitoringstackdrivergoogle-cloud-monitoring

解决方案


“违反任何时间序列”和“违反所有时间序列”这两个选项有什么区别?我可以想象前者会轻松做什么,但我不知道后者会做什么。

首先,什么是“违反时间序列” - 当指标的当前值超出预期范围时,例如:高于指定的阈值。

其次,“任何/全部/百分比/数字” - 假设您有 5 个时间序列,例如:5 个实例上的 cpu 使用情况,然后每个下拉选项,整个警报条件将在以下情况下违反:

  • “任何时间序列”:时间序列中的任何 1 个违反
  • “所有时间序列”:所有 5 个时间序列都违反
  • “时间序列百分比”(40%):5 个时间序列中有 2 个是违规的,是的,在小数字上选择 39% 或 41% 会给你不同的结果,所以
  • “时间序列数”(3):5 个时间序列中有 3 个违规

第三,for也就是持续时间框,它看起来像“如果我的时间序列违反了 5 分钟,那么就违反了条件”。对于一些更简单的警报,这甚至可以工作,但是一旦您尝试将其与“指标不存在”或其他复杂配置结合起来,您将看到实际发生的情况是“在问题出现后等待 5 分钟,然后只有这样才会触发违规”。

在实践中,for不鼓励使用字段,最好将其保持为默认的“最新值”。

如果您确实需要“5 分钟内 cpu 使用率高于 90%”,那么正确的做法是对数据进行降噪/平滑处理:

  • 将对齐周期设置为 5 分钟(或任何您想要的滑动窗口)
  • 然后选择合理mean的对齐器(例如,它将平均值)
  • 然后,虽然图表的数据点更少,但它们的噪音会更小,您可以根据最新值采取行动。

推荐阅读