prometheus - Prometheus 警报管理器 - CPU 高不警报
问题描述
我配置了 prometheus 警报管理器,但是当我的一台服务器的 CPU 达到 99% 的使用率时,他没有发出警报。这是警报:
- alert: HostHighCpuLoad
expr: avg(irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30
for: 1m
labels:
severity: warning
annotations:
summary: "High usage on {{ $labels.instance }}"
description: "{{ $labels.instance }} has a average CPU idle (current value: {{ $value }}s)"
它看起来像我的表达方式,取我所有服务器的全球平均值,但我需要为每台服务器监控这个度量。
有人已经遇到这个问题了吗?
解决方案
是的,它正在考虑所有实例的平均值。将表达式更改为:
avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30
推荐阅读
- python - Maya Python:未定义某些内容(建筑生成器)
- kubernetes - Prometheus 服务端点的上下文期限已超出
- r - 多条线映射到相同的颜色ggplot2 R
- angular - 在等待 RxJS 可观察对象时在 Angular 中显示加载指示器
- mongodb - 如何过滤 $lookup 结果
- r - 同一网络不同时间段的特征向量值(R中的igraph)
- c++ - static_cast 到一个结构类型来访问它的所有成员变量
- c++ - `LoadLibraryExW` 从`NtMapViewOfSection` 触发异常`0xC0000023`
- microsoft-graph-api - 有没有办法轻松查看 Azure/Microsoft Graph webhook 的调度是否有问题?
- java - 将 Immutable 转换为可变列表 Java,还有其他选择吗?