首页 > 解决方案 > 警报优先级 - 100% 离线生产主机与环境警报(100% 的 cab 硬件过热)

问题描述

在标题中列出的两个警报中,您会优先修复哪个警报?

我认为环境警报更重要,因为物理硬件的丢失可能比暂时停止生产更具破坏性。不过,生产主机 100% 离线也是一个主要问题。

我想我很难确定这些系统中的任何一个在大规模系统中出现故障的每分钟损失值。

标签: performancearchitecturemonitoring

解决方案


如果两个警报都是针对同一环境的,那么“生产停机”似乎是“硬件过热”的结果。

因此,后者可能是需要首先解决的根本原因。

从逻辑上讲,如果硬件过热,将没有任何剩余可用于生产。除非您准备好场外 DR 系统。在这种情况下,不同的人可以同时对警报采取行动。也就是说,可能有一个团队负责生产正常运行时间,他们将更多地关注第一个警报,另一个负责硬件的团队将专注于第二个警报。因此,让最终用户可配置优先级可能是值得的。


推荐阅读