首页 > 解决方案 > 警报的生产级方法

问题描述

背景

我们的代码是这样写的:

  1. 单元测试
  2. 端到端测试
  3. 代码审查
  4. 分期过程
  5. 部署过程

相反,我们的警报只是编写,然后偶尔手动修改。根本没有质量流程。

这个过程对于简单的阈值检查是合理的。然而,我们的警报有时是建立在复杂的查询之上的。有时由约 20 行查询组成。

如果我们不小心破坏了警报,它可能会使我们面临生产不稳定,因为我们不知道某些逻辑或组件是否破坏。

问题

是否有推荐的方法来验证复杂警报的质量?

附言

我们正在使用 Splunk 警报

标签: alertsplunk

解决方案


Splunk 没有用于验证警报的记录实践,如果这是您正在寻找的。我建议您遵循类似于用于代码的做法。单元测试是不可能的,但您可以使用生产数据样本或合成数据在非生产系统上测试修改后的警报。


推荐阅读