SRE|当Google的核心准则遇到Xero的最佳实践

Markdown

关于SRE，数人云之前给大家分享很多相关的文章，想必大家已经有了一定的了解，今天给大家带来的这篇文章，分别从Xero和Google的角度讨论一些工具和框架，以及SRE的一些准则。

Xero的SRE之路

作为一个SRE，作者主要关心的是如何保持应用平台的稳定，减少崩溃，然而这也是不能避免的，本文会通过Xero的SRE经验去讨论一些工具和框架。

任何故障的开始都是至关重要的，因此需要在发现故障的第一时间就提醒能解决问题的人。

大多数的生产问题，都是通过监控基础设施进行检测的，用于告警的通道工具已经随着时间的推移而发生了变化，但是基本的流程仍然大同小异，如下图所示：

Markdown

自动告警Pipeline

自动化Pipeline可以确保工程师快速、正确、一致和可靠的进行工作，理想的情况下，所有的告警都应该是自动化的，但有时我们会接触到一些没有被发现的问题，所以希望有一种方法可以允许其他团队报告保留自动告警Pipeline，因此决定将这些请求转换为自动告警，如下所示：

Markdown

手动报警Pipeline

使用这种方法，自动和手动告警都以同样的方式送达工程师，但是每个告警都有什么呢？

剖析一个告警

出现了什么错误？问题的性质和严重性？
故障出现后，都有哪些地方收到了影响？
它怎么能固定下来呢？链接到Runbooks或者How-to文档。

尝试编写自动告警模板以满足这些需求，对于手工报告的问题，依赖于通过在线表单提供这些信息，希望填写表格的过程是速度且无痛的，所以只有第一个问题是强制性的：

能否概括一下这个问题，比如，到底出了什么问题？
哪个站点/URL有问题？可以帮助识别受影响的地方。
问题是否仅限于特定的地点，帮助我们隔离网络/CDN问题。
问题是什么时候开始的？帮助设置日志/度量搜索的时间尺度。
谁在关注这些问题？这样可以将它们包含在事件的Pipeline中

虽然这些信息不可能如监控系统所提供的那样具体明确，但它仍然可以减少SRE工程师所需要的调查工作。

On-call as code

我们使用第三方的呼叫管理系统，允许我们建立多个On-call团队，定义每个团队的轮换，并将每个团队连接到监控基础设施，告警是针对拥有受影响系统的团队的，但是SRE为每个团队提供了额外的层，如下所示：

Markdown

告警升级

在20多个产品和服务的呼叫团队中，On-call管理配置已经演化为相当复杂的设置，随着越来越多的团队加入其中，我们的支持模式也在不断地发展，要手动设置所有的东西将是一项艰巨的任务，处于这个原因，我们创建了一个“On-call as code”系统，类似于Chef这样的基础设施代码框架。

Markdown

On-call configuration pipeline

Google SRE准则

确保持久专注于工程

Google在50%的时间内为SREs的运维工作设置上限，他们的剩余时间应该用在项目工作的编程技能上，在实践当中，这是通过监控SRE们所做的运维工作数量来完成的，并将多余的运维工作重新定向到产品开发团队：重新分配Bug将开发人员集成到On-Call pager roUNK中等等。

当运维负载下降到50%或更低时，重新向结束，这也提供了一个有效的反馈机制，引导开发人员构建不需要人工干预的系统，当整个组织——SRE和开发人员理解为什么这个机制存在时，这种方法很有效，并且支持没有溢出事件的目标，因为产品没有产生足够的运维负载来要求她。

当他们专注于运维工作时，在平均每8-12小时中，SRE应该最多接受两个事件，这个目标量给呼叫工程师足够的时间准确快速地处理事件，清理和恢复正常服务，然后进行事后剖析，如果有两个以上的事件经常发生在呼叫转移上，问题就无法彻底调查，工程师们也无法从这些事件中吸取教训，一种寻呼机疲劳的情况下也不会随着规模而提高，相反，如果每次转换时，调用的SRE始终接受不到一个事件，那么这就无异于在浪费时间。

对于所有重大事件，无论是否寻呼，都应该写死后的纪录，没有触发界面的后期纪录甚至更有价值，因为它们可能指出了明显的监控漏洞，这个调查应该确定发生的细节，找出事件的所有根源，并分配行动来纠正问题化或改进下次处理的方法，Google在一个免费的分析文化下运行，目标是揭露出错误并应用工程来修复这些错误，而不是去避免或尽量最小化它们。

追求最大的变化速度而不违反服务的SLO

产品开发和SRE团队可以通过消除各自目标中的结构性冲突来享受高效的工作关系，结构冲突是在创新和产品稳定性之间，正如前面所述，这种冲突往往是间接表达的，在SRE中，我们将这个冲突引入到前面，然后通过引入错误预算来解决它。

预算错误源于这样一种观察，即100%是所有东的错误可靠性目标，一般来说，对于任何软件服务或系统100%可用和99.999%可用，有许多其他系统用户和服务之间的路径（他们的笔记本电脑，家里的WIFI，ISP，电网……），这些系统集体远远低于99.999%，因此，99.999……和100%的差异在于其他不可用性的丢失，而且用户无法从需要添加走货0.001%的可用性中获益。

如果100%是一个系统的错误可靠性目标，那么，系统的正确可靠性目标是什么？这实际上并不是一个技术问题——这是一个产品问题，应该考虑以下因素：

考虑到他们是如何使用产品的，用户满意的程度是多少?
对于那些对产品的可用性不满意的用户有什么选择?
用户在不同可用级别上使用该产品会发生什么情况?

业务或产品必须建立系统的可用性目标，一旦确定了目标，错误预算就是一个减去可用性的目标。一个99.99%可用服务是0.01的不可用，允许0.01的不可用性是服务的错误预算，我们可以把预算画在问么想要的任何东西上，只要不超支。

那么要如何花费这个错误预算呢？开发团队希望推出特性并吸引新用户，理想情况下，我们会把所有的错误预算都花在我们发布的新产品上，以快速启动它们，这个基本前提描述了整个错误预算模型，一旦SRE活动在这个框架中被概念化，通过注入阶段性的滚转和1%的实验等策略释放错误预算，可以优化更快的启动。

错误预算的使用解决了开发和SRE之间的结构冲突，SRE的目标实在是“0消耗”；相反，SRE和产品开发人员的目标是将错误预算花在获得最大特征速度上，这种改变造成了不同，宕机不再是“坏”的事情——它是创新过程中预期的一部分，而且发展和SRE团队都在管理，而不是一直忧心忡忡。

监控

监控是服务所有者跟踪系统的健康和可用性的主要手段之一，因此，应当深思熟虑地构建监控策略，一个典型的、常见的监控方法是观察特定的值或条件，然后在超过该值或条件时触发电子邮件告警，然而，这种类型的电子邮件告警并不是一个有效的解决方案；一个需要一个人阅读电子邮件并决定是否需要采取某种行动的系统从根本上是有缺陷的，监控不应该要求人对告警区域的任何部分进行解释，相反，应用应做口译，只有当它们需要采取行动时，才去通知SRE。

三种有效地监控输出：

告警：意味着SRE需要立即采取行动来应对正在发生或即将发生的事情，以改善这种情况。
Tickets：表示SRE需要采取行动，但不是马上，系统不能自动处理这种情况，但如果一个人在几天内采取了动作，就不会造成事故。
日志记录：无需日日查看的信息，但它被记录为诊断错误或反刍的目的。

应急响应

可靠性是指故障时间（MTTF）和平均修复时间（MTTR）的函数，评估应急反应有效性地最相关的指标是反应小组能多快地将系统恢复到健康状态，即MTTR。
一个能够避免需要人工干预的紧急情况的系统比需要实际操作的系统有更高的可用性，当SRE有需求时，我们发现，在“剧本”中提前记录是最佳实践，在MTTR中产生大约3倍的改进，而不是“即兴发挥”的策略，谷歌SRE依赖于on -call playbooks，除了诸如“不幸之轮”这样的练习，还可以让工程师对on - call事件做出反应。

效率和性能

任何时候，有效利用资源都是非常重要的，由于SRE最终控制了供应，因此它也必须参与任何有关使用的工作，因为利用率是给定服务如何工作的一个函数，以及它是如何响应的。密切关注服务的供应策略，它的使用为服务的总成本提供了非常大的杠杆。

资源使用是需求（负载）、容量和应用效率的函数。SRE预测需求，提供能力，并可以修改软件，这三个因素是服务效率的很大一部分（尽管不是全部）。

随着负载的增加，应用系统会变得越来越慢，服务的减少等同于能力的丧失，在某一个时刻，当某个缓慢的系统停止服务，这相当于无限的慢。SRE提供以特性的响应速度满足容量目标，因此对服务的性能非常感兴趣，SRE和产品开发人员将（并且应该）监控和修改服务以提高其性能，从而增加容量和提高效率。

以上是小数今天给大家分享的文章，众所周知，SRE的理念最早出自Google，而数人云老王（王璞）曾供职于Google的广告部门，对于SRE有着深入的研究，在数人云的Meetup上就曾以SRE为题进行了多次分享，同时小数也给大家分享了多篇SRE相关的文章，有兴趣的可以点击查看：

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342

SRE|当Google的核心准则遇到Xero的最佳实践

Xero的SRE之路

剖析一个告警

On-call as code

Google SRE准则

确保持久专注于工程

追求最大的变化速度而不违反服务的SLO

监控

应急响应

效率和性能

推荐阅读更多精彩内容