alert - 警报的生产级方法
问题描述
背景
我们的代码是这样写的:
- 单元测试
- 端到端测试
- 代码审查
- 分期过程
- 部署过程
相反,我们的警报只是编写,然后偶尔手动修改。根本没有质量流程。
这个过程对于简单的阈值检查是合理的。然而,我们的警报有时是建立在复杂的查询之上的。有时由约 20 行查询组成。
如果我们不小心破坏了警报,它可能会使我们面临生产不稳定,因为我们不知道某些逻辑或组件是否破坏。
问题
是否有推荐的方法来验证复杂警报的质量?
附言
我们正在使用 Splunk 警报
解决方案
Splunk 没有用于验证警报的记录实践,如果这是您正在寻找的。我建议您遵循类似于用于代码的做法。单元测试是不可能的,但您可以使用生产数据样本或合成数据在非生产系统上测试修改后的警报。
推荐阅读
- python - 导入库不能与 exec 函数一起使用?
- arrays - 尝试在 userdefaults 中设置数组时出错:线程 1:“尝试插入非属性列表对象
- node.js - 如何将 FCM 消息发送给不同的用户
- c# - Entity Framework Core 6(预览版)迫使我使用 .AsEnumerable()
- c# - 添加到 SortedList 中的列表
- sql - 将变量作为字符串中的参数传递:SSIS sql 命令
- php - 有时 SESSION 加载,有时不加载
- r - 如何计算R中组中位数之间的列差异
- django - Django KeyError:'父'
- reactjs - Cookie 未从部署在 Heroku 上的 django 应用程序设置