今天恰逢2020年下半年第一天。2020太难了,上半年忙着见证历史,人人都不易。希望大家保持乐观,下半年一切都会好起来!
言归正传,继续说运维。修炼至此,大家都已具备九阳神功前三重的功力,浪迹IT江湖三十年的融哥带大家继续乘风破浪、精益求精。
页面打不开、系统卡顿、应用宕机……每天IT运维人员被各种飞来横祸困扰,如六大派狠人围攻光明顶。要想搞定业务运行过程中的种种问题,你必须变成一个小号的魔教教主,打通任督二脉、调动全身功力,方能转危为安,世界和平。
九阳神功第四重:缩骨大法
他心中只一个念头:“这小子比我高大,他能钻过,我当然更能钻过。”想法原本不错,只是有一点却没料到:张无忌已练成了九阳神功中的缩骨之法。——《倚天屠龙记》
缩骨大法者,化大为小,小中见大,见微知著也。
魔鬼往往在细节中。对于业务系统的监控,基本的监控粒度有多大,决定了故障定位的精度。上一期融哥曾经给大家讲过监控系统的数据来源,以旁路镜像数据流为最佳选择,数据流中全部业务系统之间的数据流纠缠在一起,剪不断理还乱,必须化大为小,从大的数据流中拆分一个个小的逻辑对象,才能锁定真正的问题。
举个例子,上面是一个的典型银行应用。
粗看起来,每分钟2000笔的交易量,平均响应时间100ms,成功率90%,响应率90%,看起来还不错。大部分业务监控系统,只能做到这一步了。
但如果我们细看不同的渠道发出的请求,就会发现,应用细分为网银、柜面、第三方支付和理财平台四个部分,其中前三个是正常的,但理财平台的成功率和响应率都只有10%,已经是严重故障了。
因为理财平台的这200笔交易,只占了总交易量的10%,问题被其他交易掩盖了。如果这些细微的隐患不及时发现,以后会逐渐演变为更大范围、更严重的问题。
这就是细化监控对象、化大为小、见微知著的价值所在。作为一个运维人员,必须练就一双慧眼,有一套神器,方能及时杜绝小隐患引发的大麻烦。
运维人员使用的软件工具,必须具备细分监控对象的能力。华青融天的EZSonar系统(鹰眼),一个重要特点就是微监控,在数十家金融机构得到广泛应用。
九阳神功第五重:龟息大法
这乾坤一气袋密不通风,他在袋中耽了这许多时候,早已气闷之极,仗着内功深湛,以绵绵龟息之法呼吸,需气极少,这才支持了下来。——《倚天屠龙记》
融哥听说有气长命长之说,龟一次呼吸45秒一般寿命500年,人一次呼吸5秒一般寿命80年。要是看见一个人大口喘气,上气不接下气,估计离挂掉不远了。
所谓龟息大法,就是内功高手对生命节奏的掌控。从容淡定,方能应付裕如、行稳致远也。
作为一个IT系统的运维人员,最重要的就是不要让自己被虚假的无意义的信息淹没,忙的四脚朝天,反而忽视了重要的问题。我们经常看到,大量软硬件平台和应用系统不断发出告警信息,快速刷屏,在这种情况下,如何对告警进行高效的精准处理,分级、压缩和降噪,去伪存真,及时识别真正的故障和隐患,就是最重大的课题了。
第一是减少误告警。比如,某一时刻交易量突然降低,但只是暂时性波动,很快又恢复正常,这种异常是没必要告警的。有些批处理也可能导致某一刻交易量突发,这种也属正常情况,往往也不需要告警。
第二是准确把握业务的正常规律,精准地对异常业务流发出告警。这张图显示了对交易量的监控,利用大数据和机器学习技术,根据历史数据产生动态基线,以基线来反映正常交易量的规律,如果真实的交易量与基线的差异过大,则说明发生了异动,此时才触发告警,避免误告警的发生。
第三是提升每一个告警的有效性,减少告警数量和频次,通过告警关联功能找出事件之间的联系,去除告警杂音,让告警更加精准有效。
凡此种种,在告警的处理上要寻找一种平衡,通过智能的算法,反映实际业务的规律和异常事件间的关系,不漏报不误报,让运维人员应对从容。这就是华青融天EZSonar强调的“轻告警”。
九阳神功第六重:壁虎游墙
赵敏笑道:“张公子,你的壁虎游墙功当真了得,这陷阱是纯钢所铸,打磨得滑不留手,连细缝也没一条,你居然游得上去!”——《倚天屠龙记》
一说到墙,干运维的同学们就乐了。我们习惯什么都上墙,有什么话咱对着墙说。融哥在运营商工作十多年,参观运营商总部的保留项目就是去看运维中心的大墙,几十块大屏,全部专业网络运作情况一目了然,尽收眼底,极具视觉冲击力。
如今的墙更是今非昔比,不仅可视化效果美轮美奂,实时性也可以达到秒级,网络、服务器和应用的问题,第一时间上墙。数字和红绿点线游动跳跃,如同壁虎游墙。
不用多解释,可视化做的好,各种实时数据集中直观地显示,是大屏的最大优点,领导喜欢我也喜欢。一般都是从大屏发现了问题,才一步步向下钻取,挖掘到问题的根源,所以一块丰富而直观的大屏、实时性的数据展现、随心所欲的视图定制、方便快捷的钻取功能,是每个运维人员的梦想,也是衡量一个监控系统好坏的关键。
行文至此,九重神功说到了三分之二,后事如何,且听融哥下回分解。