概览
通过此文档,你能够配置简单的Grafana8告警。
背景
Grafana8以后,alert功能更新。新告警设置与老告警设置完全不同。我们这里暂定新告警名为统一告警。
在开始配置之前,需要先对齐一下信息。
监控架构图
整体监控平台以prometheus为核心进行设计。
不支持在 Docs 外粘贴 block
告警级别分类
告警级别很重要,故障应急策略会根据告警级别而定。
不支持在 Docs 外粘贴 block
告警配置
告警页面常用名词解释:
三大组件关系图:
为了方便理解,将配置告警使用的对象,简称为三大组件。
他们分别是:Alert rules , contact points,notification polices
不支持在 Docs 外粘贴 block
设置Prometheus告警
第一步:contact points
创建告警通道
一个contact points可以设置多个发送告警通道
第二步:Notification policies
创建告警通道匹配规则
- 使用label匹配alert rules
- 选择contact point
- 设置Override general timings (可选)
- Group wait: 调节告警敏感度
- Group interval:这里设置多个alert rules匹配1个contact point,所以此参数设置较低。
- Repeat interval:建议对齐"告警策略"中的"故障状态更新时间"参数设置
第三步:Alert rules
配置告警策略
这里使用CPU告警举例
- 找到CPU的监控panel
- 编辑panel进入alert页签,创建alert rule
- 设置报警规则
设置所有IP地址是10.11开头的主机,CPU使用率最新的参数超过80%阈值,30s检查一次,持续1分钟都超过告警阈值,则触发告警。为了匹配告警通道,标签设置Contact_point=alert-test-group-ms-teams
注意:告警内容要清晰的告知需要做什么,因半夜2点多当你收到告警时,你很难保证在迷糊的状态快速的做出正确的判断。
上图的配置会将此报警绑定到下图的告警通道
Microsoft Teams设置webhook
- 创建群组
- 给群组增加通道
- 给通道增加连接器
- 选择Add Incoming Webhook
- 创建后复制webhook地址,填写到Grafana中。
注意:webhook地址需要单独保存,创建后无法再次查看。
参考文档:
https://grafana.com/docs/grafana/latest/alerting/unified-alerting/
https://docs.microsoft.com/zh-cn/outlook/actionable-messages/send-via-connectors