线上部署
dohko环境:falcon.dohko.hualala.com
世纪互联:falcon.sj.hualala.com
首鸣:falcon.sm.hualala.com
有接收报警需求的用户,需要在falcon上添加相应账号,同时加入对应业务组。初始账号/密码都是hualala账号,也可以使用预置的 rd/rd@hualala 账号登录。
使用方法
falcon UI 主要分为几个部分
- Dashboard:监控查询,这个也是RD最关心的部分
- Screen:一个便捷的查询入口,可以预定义一些查询条件,方便快速查看
- HostGroups:配置业务组,也就是可以将同一个服务的 机器/虚拟机/容器等(其实是系统中endpoint的概念)设置为一个组,对同一个组里的 机器/虚拟机/容器 可以应用相同的报警规则,也可以对同一组 机器/虚拟机/容器 的监控数据做聚合操作
- Templates:配置监控报警策略模板,一个模板需要绑定到HostGroups上才生效
- Expressions:表达式是一种灵活的报警策略配置,一旦配置对所有的监控数据都生效
- Nodata:配置某些监控项没有数据上报时,如何补偿数据的策略
- Alarm-Dashboard:线上产生报警情况和报警历史过程
Dashboard
falcon 的数据模型为
数据模型
{
metric: load.1min,
endpoint: open-falcon-host,
tags: srv=falcon,idc=aws-sgp,group=az1,
value: 1.5,
timestamp: `date +%s`,
counterType: GAUGE,
step: 60
}
metric是监控指标名称,endpoint是监控实体,tags是监控数据的属性标签,counterType是Open-Falcon定义的数据类型(取值为GAUGE、COUNTER),step为监控数据的上报周期,value和timestamp是有效的监控数据。
所以查询的时候
- 先在 Endpoint 搜索框中输入要查询的 hostname,containderId,domain 等(看采集或推送数据时如何定义),可以在标签,过滤,显示数量处 缩小结果集合
- 选中需要查看数据的Endpoint
- 在 Counter 搜索框中输入需要查询的监控项(metric/tags,metric 就是监控项名称,tags是自定义的一些标签,用于标记数据)
- 选择我们关注的Counter,然后点击 看图 就可以显示监控图了
Alam-Dashboard
目前alarm页面会显示所有未处理(这里指没有关注过,自动恢复了的也算)的报警,点击 告警事件列表 可以看到报警的过程
其他
HostGroup, Template, Expression 和 Nodata 配置和原来一样,主要由OP同学维护,后续RD同学如果需要自行配制,再在此补充。
参考
v0.2使用文档:https://book.open-falcon.org/zh_0_2/intro/index.html
github地址:https://github.com/open-falcon