首页 > 解决方案 > “最旧消息平均值的近似年龄”矩阵 AWS 中的未知峰值

问题描述

我每天同时从我的 Amazon SQS 收到以下警报消息。

您收到此电子邮件是因为您在 {my region} 区域中的 Amazon CloudWatch 警报“SQS 中的旧消息”已进入 ALARM 状态,因为“阈值已超过:最后 1 个数据点中的 1 个 [183.0 (30/09/20 00 :06:00)] 大于或等于阈值 (180.0)(OK -> ALARM 转换的最少 1 个数据点)。” 在“2020 年 9 月 30 日星期三 00:07:22 UTC”。

报警详情:

  • 名称:SQS 中的旧消息
  • 描述:Abc 更新耗时过长。检查处理器和队列。
  • 状态变化:OK -> ALARM
  • 状态更改的原因:超过阈值:最后 1 个数据点中的 1 个 [183.0 (30/09/20 00:06:00)] 大于或等于阈值 (180.0)(OK -> ALARM 的最少 1 个数据点过渡)。
  • 时间戳:2020 年 9 月 30 日星期三 00:07:22 UTC

临界点:

  • 当指标为 GreaterThanOrEqualToThreshold 180.0 持续 60 秒时,警报处于 ALARM 状态。

监控指标:

  • 公制命名空间:AWS/SQS
  • 指标名称:ApproximateAgeOfOldestMessage
  • 周期:60秒
  • 统计:平均
  • 单位:未指定

状态更改操作:

  • 好的:
  • 数据不足:

所以我检查了 cloudwatch,看看发生了什么。因此,我发现在用于处理 SQS 中的消息的那个实例的同时,CPU 利用率正在下降。所以我决定 SQS 中的消息由于服务器停机而增加。

SQS 最旧消息

CPU 利用率

但我无法确定为什么服务器每天都在同一时间出现故障。我检查了以下内容

是否有任何具有这种经验的人将不胜感激以确定确切的问题是什么。

标签: amazon-web-servicesamazon-ec2amazon-sqsamazon-cloudwatch

解决方案


推荐阅读