performance - 警报优先级 - 100% 离线生产主机与环境警报(100% 的 cab 硬件过热)
问题描述
在标题中列出的两个警报中,您会优先修复哪个警报?
我认为环境警报更重要,因为物理硬件的丢失可能比暂时停止生产更具破坏性。不过,生产主机 100% 离线也是一个主要问题。
我想我很难确定这些系统中的任何一个在大规模系统中出现故障的每分钟损失值。
解决方案
如果两个警报都是针对同一环境的,那么“生产停机”似乎是“硬件过热”的结果。
因此,后者可能是需要首先解决的根本原因。
从逻辑上讲,如果硬件过热,将没有任何剩余可用于生产。除非您准备好场外 DR 系统。在这种情况下,不同的人可以同时对警报采取行动。也就是说,可能有一个团队负责生产正常运行时间,他们将更多地关注第一个警报,另一个负责硬件的团队将专注于第二个警报。因此,让最终用户可配置优先级可能是值得的。
推荐阅读
- java - Selenium:无法在跨度中打开下拉菜单
- c# - Visual Studio - Outlook 插件 - 从 SQL 数据库填充组合框,为什么字符串值返回这样?
- bash - 如果已经存在,则 Bash 脚本分区跳过
- android - (android) 应该只在第一次调用 setAdapter() 吗?
- python - 自动包装 xlsxwriter python 的列,以便它们适合内容?
- matlab - 模型预测控制的计算矩阵
- xpath - 当标签为@href 时,xpath text() 返回“None”
- python - 如何根据不同的条件加入或合并两个数据框?
- sql-server - 数据库备份到 Azure url - SQL Server 2014
- javascript - 如何制作 React Material UI
100% 宽度