【AIOps探索】智能化时代,告警事件的压缩与定位如何实现?

背景

AIOps,即 Artificial Intelligence for IT Operations,智能运维。随着智能化时代的快速发展,企业内服务系统的数量不断增加,系统之间的关系也越来越复杂。如图,在传统运维方式中,运维工程师难以快速准确地对海量告警做出正确判断,导致服务停滞,并造成不可逆的损失。在AIOps智能运维下,智能化的判断告警故障定位非常值得深入探索。

▲    传统运维和智能运维差异


下面对告警的常见问题做简单概括:

告警是什么?

告警是运维软硬件发生特定事件后的事件通报;通过监控中心进行实时监控,并对告警事件进行采集存储。

为什么需要告警规约和故障定位?

当发生告警风暴时,传统运维工作需要对每条告警进行分析,运维工作量很大。因此,采用AIOps方法能大量减轻运维工程师的工作量。AIOps采用算法思想智能化的实现告警压缩和故障定位。

如何做到告警规约和故障定位?

基于以上问题,我们设计了一套关于告警事件的分析方案,包括了采集告警数据、提取告警关联规则、告警故障定位。该分析方案可以更实时、快速且准确的定位告警源,接下来将具体介绍一下我们的分析方案。


分析方案

该分析方案是主要分为离线学习和在线分析两个过程,目的是为了提取告警关联规则,实现告警压缩和告警故障定位。如图所示:

▲    关联规则挖掘及定位流程示意


离线学习

离线学习是通过历史告警数据获取告警事件间的关联关系,并通过规约算法消除关联的噪声告警,划分出具有强关联的告警分组。

历史告警:获取各监控设备上的历史告警数据,主要包含有时间、设备型号、告警标题、告警对象等有效属性。

规范化:对获取到的原始告警数据进行规范化处理如清除脏数据、分词等;对不同的告警事件进行编码,如将“XXX的CPU发生告警,CPU使用率达到90%”设为A1。

告警分段:将告警事件进行划分处理,把告警事件划分至一个时间窗口内;由于告警事件发生的告警关键内容具有较大相似性,需要在时间分段基础上计算本文相似度,对场景进行分段。

关联挖掘:采用告警上下文关联告警内容关联两者结合挖掘告警事件的关联关系,此挖掘步骤可获得告警事件两两之间的拓扑关系。

社区划分:社区划分的算法有很多,常见的有LPA、Louvain、Infomap等算法。在告警场景中,相比其他两种算法, Louvain算法能更有效地对告警事件分组划分。


在线分析

在线分析是对实时告警事件进行分析,与离线学习的数据处理过程一致,也是根据时序和文本相似度进行分段,再对离线学习结果进行关联压缩,最后以关联规约后的压缩集合为单位,将得到的告警根因结果反馈给运维工程师。

数据处理:在线分析过程中,数据处理与离线学习一致,都是将实时告警数据进行规范化、按告警发生时间和告警内容分段等。

社区匹配:将处理后的告警事件与离线学习的结果进行社区匹配,若匹配成功,则将该告警事件划分至该社区内;若匹配失败,则将该告警事件与经过离线学习后的告警事件进行文本相似度计算,取文本相似度最大的告警所在的社区作为该告警事件的社区。

故障定位:对所有强关联的告警社区进行故障定位,本文根据告警事件的业务情况采用改进的PageRank算法故障定位。

结果反馈:运维工程师可获取经算法推荐的告警根因,对每次实时发生的告警事件,获取其根本原因。


模拟分析实验

获取嘉为蓝鲸统一告警中心的数据进行模拟分析,实现过程参考下图:

▲    嘉为蓝鲸统一告警中心分析示例


根据嘉为蓝鲸统一告警中心的数据分析,得到以下结论:

总体数据量约为20w,总告警数有148,独立告警数25,有效告警数123,有效告警被划分成13个小组,每小组内包含一个告警根因。

告警压缩率约为91.2%。

告警丢失率约为16.9%。

每秒可实时推断约1000条告警事件的根因故障。


总结

本文主要是探索了告警事件的压缩与定位的分析方案,它能提高运维工程师的工作效率、能压缩告警的数据量、能基本实现自动化的网络运维。方案中可能存在如告警关系不够全面、关键阈值的设定依赖专家经验等有待改进的点,欢迎大家一起探讨优化。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容

  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,033评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,870评论 0 2
  • 今天上午陪老妈看病,下午健身房跑步,晚上想想今天还没有断舍离,马上做,衣架和旁边的的布衣架,一看乱乱,又想想自己是...
    影子3623253阅读 2,905评论 1 8