运维不容错过的4个关键指标！

很难说，生活在这个数据大爆炸的时代对运维同学是福还是祸。灵活的监控系统、开放 API 和易用的数据可视化资源可以将任何想要的数据图表化地显示出来，但是，过多的数据容易产生干扰，反而不利于具体信息提取和操作。

关于监控哪些指标，以及为什么要从系统化的角度出发，我们进行过深入的思考。本文中，我们想与大家分享一些具体的指标和准则，进一步帮助团队衡量并提高运维性能。以下整理了4个关键性运维指标：

告警事件数量

如果团队中的事件数量呈现上升趋势，那么很有可能是哪里出了问题：要么是基础设施有故障，要么是监控工具配置错误需要调整。

随着公司的发展，组织结构会调整，同时业务产品也会不断升级，配套监控也会同步上线，告警事件数量会急剧增加。「我们浪费了大量时间来关闭冗余报警。」－－相信很多同学都会有类似的体会。告警事件数量是可控的：

告警数量可统计，如这周告警数量是多少，与新发布的产品系统有没有关系，发生哪些问题？
告警数量是可操作的，意味着每一个告警都是有意义并且是需要处理和操作的，如果仅仅是瞅一眼的数据，请不要通过告警方式。例如100＋机器时，每台机器的「CPU 使用率高」告警是没有啥用的，你知道机器 CPU 使用率高后，你能做什么操作呢？你可能直接忽略掉，当数量大到你把需要处理的告警也忽略掉时，告警就失去了意义。类似指标完全可以通过周报／日报进行数据的性能分析，而不是告警。

平均解决事件（ MTTR ）

解决时间是衡量业务准备的最佳标准。当事件发生时，你的团队需要多长时间才能解决？
宕机不仅会影响你的收入，还会伤害客户用户体验和忠诚度，所以确保团队对所有事件可以快速响应极为关键。

全球500强企业平均每周出现严重故障时间长达1.6小时。
平均每小时折合损失$96,000。

当然，跟踪解决时间固然重要，但对其进行规范往往很难，企业可以根据环境的复杂性、团队和基础设施的责任制、行业及其他因素，进一步观测 MTTR 的差异。但是，规范化的操作手册、自动化的基础设施管理、可靠的告警升级策略都有助于减少事件，和提升 MTTR。

优秀的团队减少事件数量，并及时解决（ MTTR ），所以平均解决事件需要和上面告警数量一样，需要记录和统计分析，目前大多监控工具往往不具备类似能力，如果没有精力或者资源自行开发的话，我们就建议使用第三方平台OneAlert 。

有关如何减少事件数量，避免告警疲劳的事情，后续将会有独立文章进行发布。

平均响应时间（ MTTA ）

如果说平均解决时间是结果，那么平均响应时间就是重要的过程指标，这一点往往被大多团队忽略掉。可以理解为告警越快发现，越快有人响应，就能够越快的解决（更好的MTTR）。

运维不容错过的4个关键指标

提升 MTTA 的核心是找对人、找到人。上图中如果02:01能够及时通知到位就可以节省至少4个小时时间。

说起来简单，实际上找对人有些工作（只1人运维的请忽略），一般是从职责责任制、协调机制、工作进程透明、工作量和时间可衡量等几点进行，后面针对「有序分派」再补充一篇。

除了以上机制，还有一点，就是需要记录谁什么时候确认响应告警，并做了哪些处理，能够持续跟踪，以及统计分析。

响应时间非常重要，因为它能帮助你了解哪些团队和个人处于随叫随到的状态。快速响应时间是一个战备文化的代表，你会发现具备快响应观念和工具的团队往往可以更快地修复事件。

如果使用像 OneAlert 的事件管理系统，[升级超时]有助于推进响应目标。例如，如果你希望所有事件都应该在5分钟内回复，可以将超时设置为5分钟，从而确保下一个接收人会收到提醒。再根据团队的整体表现，来决定是否需要调整目标，然后再跟踪升级事件的数量。

升级

对于大多数使用事件管理工具的组织而言，告警升级是一种异常现象，该迹象表明首次应该响应的时候，无法及时应对事件，或许相关工具和人员技能失效。升级策略是事件管理的必须，各个团队应努力推动升级，实现升级事件数量的下降。

优秀的运维团队需要建立起有效的一线、二线、甚至三线响应机制，告警及时通知到一线，如果一线没有及时处理，可以自动升级至二线运维，保障每一个重要事件能够得到及时响应和处理。

有些情况下，升级是标准作业实践的一部分。例如，你可能有一个 NOC，一线支持团队或者自动修复工具，可根据内容来升级或分诊输入事件。这种情况下，一线更多像一个路由转发器，可以通过人工＋工具自动化方式实现。

示例分析

运维不容错过的4个关键指标

这是某个团队一个月的告警数据剖析：

告警数量在11-18前相对稳健，平均在3-5个告警。第3周告警突飞猛进，原因是新的业务上线，引发突增。经过周回顾，优化监控策略，在第4周经过初步优化，告警数量有所降低，运维团队工作初见成效，还需要继续优化。
告警响应时间 MTTA ，基本上都能够比较好的响应，基本在5分钟内响应。说明整个团队的响应及时率是不错的。同时也看到在第3、4周六的时候，明显的响应时间延迟较大，说明一个问题，周末的支撑工作有提升空间。
恢复时间 MTTR ，基本保持在20分钟左右，说明恢复比较及时，但是也有可能存在事件无需关注，自动恢复。后者需要针对事件的类型、根源进一步分析，后续文章再剖析。
升级，目前该团队基本上是5分钟升级，所以会看到在大部分问题能在5分钟内响应完成。

小结

致力减少告警数量、及时响应 MTTA 、如果不能及时响应，能够升级处理，最终提升解决时间 MTTR，4个核心关键指标是运维支撑工作非常关键的指标。

运维是结合管理流程、工具、人员三方面的综合化工作，OneAlert 期望构建一个告警平台，能够帮助运维同学更有效率的完成支撑工作。

OneAlert 是北京蓝海讯通科技股份有限公司旗下产品，中国首个 SaaS 模式的云告警平台，集成国内外主流监控/支撑系统，实现一个平台上集中处理所有IT事件，提升IT可靠性。想了解更多信息，请访问 OneAlert 官网。

最后编辑于：2017.11.27 05:01:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

运维不容错过的4个关键指标！

告警事件数量

平均解决事件（ MTTR ）

平均响应时间（ MTTA ）

升级

示例分析

小结

推荐阅读更多精彩内容