互联网系统稳定性笔记2 - 故障管理

互联网系统稳定性关注的领域是故障管理领域。故障,通常意义就是系统运行行为和预期不一致,并且造成了实际损失。思考一下,双十一页面白屏,外卖下单的时候订单始终提交不了, 这些在系统背后都对应着一些列错误,例如数据库宕机,应用服务器OOM,I/O阻塞等等。

认真的来看,故障管理领域我们可以分为下面的子领域。

【故障防范】- 防患于未然

一般而言,在系统规模比较小的时候,我们通过规范操作,标准化运营维护行为就可以避免大部分故障。例如,CI/CD的落地,数据库/缓存等规范化使用,应用服务防御性设计等, 这些都可以避免相当一部分的故障发生。 

随着系统规模增长,以APPID论,成千上万的APPID出现后,一次业务调用的链条开始设计到十几个服务之后,系统复杂度急剧上升。 这时候,就需要通过演练进行故障的防范。 Netflix的Chaos Engeering就是非常著名的演练工程。随机混乱攻击性测试,让服务持有方不得不在防御性设计,系统自愈能力上下功夫,以提高服务的可用性级别,进而增强整个系统的鲁棒性。

【故障感知】- 上天入地的监控系统

Google为整个互联网世界贡献了无数理论瑰宝,其中Dapper指导了大量分布式监控框架的实现,例如Pinpoint,Zipkin,点评老吴的CAT, 我们也有etrace。万变不离其中,这是应用层上trace系统,可以观察调用链,异常,接口QPS,调用成功率等等。 

Infra层上业界也有诸多开源框架。总的来说,基本架构为:采集器+时序数据库+Dashboard框架,例如:statsD/collected + graphite + grafana, prometheus, open-falcon等等。

接入层的监控相对比较困难,CDN的可用性,网络接入点的访问成功率,现在可以采用分布式的APM工具进行各地采样,实时反馈当地网络访问的稳定性。

【故障触达】- 即时消息和电话

故障响应的效率高低取决于故障是否可以及时触达应急响应人员。 OnCall流转,消息确认,故障处理状态更新和同步这些是常规的手段。而在实践中,故障定位和排障效率最高的方式是IM群,或者是会议室集中的方式。 原因是信息的及时同步。

故障触达时所携带的故障发生上下文极为重要。 例如,故障发生时的变更,异常指标,初因定位,甚至可以通过算法分析获取有效的根因范围。

【故障止损】- 第一时间应该选择的动作

故障发生的不可预知性决定了我们需要有一整套的故障响应预案,而且应该是验证过的预案。 预案应该至少包含:降级(接口,功能,系统能力),回滚(代码,版本),双活切换,备用机房等。

造成线上问题的原因目前来看主要有两大类: 变更(配置,版本等),容量不足(积累,突发事件等)。无论哪一种,我们在应对时,第一选择都应该是经过演练的预案。 

【故障复盘】- 有效改进

故障在结束后进行的复盘是整个故障管理完整闭环的最后一环。 对事不对人,首先关注技术缺陷,其次关注标准操作流程是否完善,最后才是追责。 

关于故障复盘,我们在乎的是改进的落地效率。因此,明确改进方案,时间,检查点等,十分有必要。

此外,故障信息是否能自动化收集,分类,也体现了完整的技术运营技术能力。


总结:

互联网系统的系统稳定性最终反应到人们面前的是故障发生率,故障级别等等。因此,提高系统稳定性就是要提高故障管理能力,三分治理,七分自动化(智能化)。 

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 相信大部分人都用过美团外卖,尤其是在每天的两个吃饭的高峰期。美团外卖从创业到现在经历了数次的迭代,不断的适应需求,...
    架构师ArchSummit阅读 3,762评论 2 14
  • 本文遵循「知识共享许可协议 CC-BY-NC-SA 4.0 International」,未经作者书面许可,不允许...
    laiwei阅读 5,700评论 7 45
  • ----夜半捋出的琐碎事 老同志躺在轮椅上,看着菲侦查南沙的新闻说道“那里打过很多次仗...
    水妮儿阅读 375评论 0 3
  • 01. @藏锋: 跟女同事认识了一年的时候,决定表白,心里紧张得要死。不敢当面说,于是决定在QQ上表白。“内个啥,...
    2bafab81304a阅读 658评论 0 2
  • 我年轻时大概是一名剑客,我并不确信这一点。只是在木床上每次梦回时,手指总不自觉的捏动两下。 我不确信自己是不是剑客...
    追未阅读 1,399评论 5 5