首页 > 技术文章 > 20200415-巡检发现的有趣事情

GYoungBean 2020-04-15 21:48 原文

关于工作

@(日期)[2020.04.15]

一直想开个分类来记录下工作的杂事,整好今天巡检发现了有趣的事,记录一下。

杂记

邮件告警

之前由于部门有个分管运维的副部长离职,于是把我的工作由负责与乙方沟通协调技术的方向转向了硬件运维工作。从负责这块开始,便建立一个专门用于发送告警邮件的账户A(所有涉及到发送告警邮件的系统都使用此账户)以及专门接收各类告警邮件的账户B。然后根据不同的收信规则,在账户B对接收的告警分类不同的文件夹。这种方式运行了3年多,一直没出什么问题。在去年将运维工作转交其他同事,而我则负责其他项目与乙方共同维护代码。

因为疫情原因,这几天轮到我值班。在巡检机房时,发现环境监控大量的告警邮件发送失败。找了下日志,发现从1月中下旬开始出现的。首先通知了运维的同事,可惜没得到什么回复。后来经过合作商人员排查,发现问题出在账户A上,于是找同事要了邮箱的后台权限,发现账户A被禁用了。真是呵呵了,这么重要的集中告警邮件,并且当初我建立时,也备注了(账户名称已经写明告警使用)作用和请勿删除和禁用。真不知道怎么想的。

还好没出什么大问题,不然出事了收不到告警,后果可想而知(涉及了机房环境监控、各类数据库服务器的监控、关键网络设备的告警、数据库审计系统告警)。晚上通过排查日志(之前配置的收集日志),发现刚好是1月中下旬的某个晚上, 某个同事把此账号给禁用了。

Tips

凡事要解决问题,当然要发现问题的原因,而不是粗暴的关闭出现问题的设备。

推荐阅读