SRECon Asia Day 1

这个时节新加坡温差不大,一早上起来就有30度,而且湿度惊人,感觉比深圳都高,同时阴晴不定,随时可能下雨,大早上起来就开始暴雨……。还好在SRECon会议开始之前雨就停了,这样才可以不会狼狈的到达开会的酒店。

会议的登记注册非常简单,拿到牌子之后就可以去吃早餐了。会议总共三天时间,每天管早餐、午餐,午餐是百度赞助的,明天晚上好像还有个什么河边散步的活动,安排的挺好,外面只有linkedin和facebook、baidu的宣传,没有国内会议那么热闹,人相对较少,但是找别人沟通、聊天干扰会少些,这点比较好。

会议的第一个话题来自Linkedin,《Linkedin SRE: From Inception to Global Scale》,由两个哥们搭档介绍Linkedin SRE发展的过程,以及他们如何把SRE的能力移植到印度的办公室,除了印度英语不太好理解外,还是有些启发作用的。提问环节看到了一个熟人,REA GIA团队的JC,休息时间赶紧过去打了个招呼,大家都很吃惊,竟然能在这样的会议上遇到,GIA还有一个Matt也一起过来了,还认识了Seek的Simon,彼此打听了对方的情况,了解到REA目前正在逐渐向SRE的模型转变,现在是将原有的Guild拆分成小的Guild,如监控等,然后由这些人去考虑从公司层面改进某些方面的问题。看上去他们现在也开始关心让业务通过数据来做出产品的决策,哈,这不就是我快离职前做的事情么?于是赶紧提了下我和Clayton做的数据流水线,接受了一番吹捧。

第二个话题来自百度,《Next Generation of DevOps: AIOps in Practice@Baidu》,其实上次我已经听刘俊在北京的DevOpsDays讲过一遍了,只不过这次是用英语,而且是一男一女搭配,Ha Jingjing同学的英文水平还是不错的,可是提问的好多印度人,完全听不懂在讲什么,专门找了个人给讲师翻译才可以-_-! 话题里面介绍了百度的运维、DevOps平台的发展过程,以及百度在AIOps的实践,有些数据,比如外部流量切换大约10分钟,内部的切换大约10s。这些REA也可以做到甚至更快,不过规模要小很多。百度的AIOps做的不错,但是大部分的东西都是他们自研的,如果能在slides中给出开源的解决方案就更好了或者设计的细节就好乐,毕竟很少有公司能有这样的实力去实现所有东西。休息期间和JC他们聊天的时候,他们也觉得这个挺牛逼的,虽然做事的方式他们不太能理解 :) 。

第三个话题来自Zendesk新加坡办公室,《How Could Small Teams Get Ready For SRE》,我看了下这些实践都太熟悉了,没什么新意,就出去facebook和linkedin展台,做题,拿点礼品,顺便跟facebook的妹子吹吹华为,她说facebook正在快速发展,伦敦和都柏林加起来2000人了,我说我们西研所有1w多人,要进军公有云,和Google、AWS一较高下,虽然内心有点虚,但是不能在未来的竞争对手面前示弱 :(。

上午的最后一个话题,我选择了Facebook的《The Service Pyramid》,大概的内容是介绍facebook的服务金字塔模型,有点类似Google SRE的服务可靠性层级,由下往上分别是:
1. 硬件的provision
2. 服务器监控/生命周期
3. 服务监控
4. 伸缩/容灾
5. 性能调优
6. 1%的问题(可用性99….%之外的问题)
每次有新的服务时,他们按照这个模型评审,然后看看那些方面存在问题,那些方面的问题去修复的收益更高,然后对症下药,显然1%的问题和性能问题,都不在优先考虑的范围,但是好的监控是必须要有的。期间了解到facebook已经有了9个数据中心,令人咋舌。

午餐和JC他们坐一起,同桌还有个facebook的哥们,聊了些家常,感觉几个月没讲英语,有点不太灵光了。不过还记得facebook的哥们讲的段子,说google和facebook的人互相看不上,google嫌弃facebook做的产品差,facebook嫌弃google做一个东西时间太长,还没有面世可能就挂了-_-! 黑的好。

下午的第一个话题是来自阿里的Wang Zhaogang,《Smart Monitoring System for Anomaly Detection on Business Trends in Alibaba》,介绍了阿里通过监控系统来收集业务数据,分析和预测其中的趋势,讲师的英文很好,只不过爱学习的印度朋友又出来问问题了:(,因为对中间分析的模型有些疑问,结束后找Zhaogang沟通时才知道他们现在是在阿里所有业务数据的基础上来做的,虽然现在有一些数据噪音的问题,但这个方向肯定是没错的,通过数据来做出/辅助业务决策,这和Clayton当初在REA发起数据流水线的想法是一致的。

下午的第二个话题我选择了CloudFare一个工程师介绍的《Managing Server Secrets at Scale with a Vaultless Password Manager》,原因是隔壁在如何Scale Graphite,而我觉得Graphite的设计已经赶不上一些新的时间序列数据库了……,同时因为最近业余时间在学习密码学相关的东西,好奇它会介绍什么,因为以前我们都是用AWS的KMS,RatticDB或者Vault去管理密码\密钥的。果然,这个实现的角度非常清奇,它的基本原理是这样:
1. 在UEFI(BIOS 2.0)中保存mater key seed
2. 服务器启动后,配置管理工具每次用master key seed 通过KDF来生成新的密码
3. Key pair 通过CSPRNG加密伪随机数生成器来生成
这样的好处在于,每台服务器有不同的master key seed,它被加密在UEFI中,所有的key pair都是在本地保存,并不需要一个专门的密码管理的服务如RatticDB、Vault,省去了维护的成本。可惜会后没有找到他,不能继续交流下细节,只能twitter提问-_-!希望明天还能见到他。

接下来我放弃了滴滴的关于《Open-Falcon》的话题,因为知道这个是小米基于zabbix开源的的监控报警工具,所以选择了Google的Nolan的话题《Managing Critical State: Distributed Consensus for Reliability》,基本上都是在讲分布式一致性算法发展历史,Paxos等。没想到Google SRE那本书关于分布式一致性的章节竟然是基于她的论文,whhat! 因为是妹子所以没有好意思上去合影 :(,失去了和大神同框的机会。

最后一轮的话题我先去听了七牛的一个妹子介绍的基于Ansible实现大规模调度的session,后来一想觉得ansible自己已经有一定了解,不如去听听隔壁讲openstack,也许将来用的上。所以结束的话题我听的是来自清华大学Xu Wei的《Talking to an OpenStack Cluster in Plain English》,感觉真是听对了。他的问题场景大致是这样,如果OpenStack管理的节点出现问题,那么查询需要大量的命令组合以及知识,这样的时间成本以及对人的要求很高。他解决的思路是通过自然语言去查询机器的状态,其次是通过最简单的规则在系统中自动发现知识,这里用到了图数据库。具体的实现是通过日志以及服务器原始的状态(通过OpenStack API)在图数据库中生成OpenStack的知识图谱,通过标签针对数据集去训练模型,最后使用类似ChatOps/Hubot这样的工具,将自然语言查询转化为模型的查询,获得结果。 这个话题值得和IaaS部门的同事分享下,同时,抛开OpenStack这个应用的场景,我可以认为这个过程是构建知识图谱,机器学习,将自然语言转化为API请求来从图谱中获得结果,适用于任何需要复杂操作才能获得内容的场景。没错,我说的就是我菊的hi社区,回去之后可以尝试针对它实现类似的事情,然后搞个机器人和espace集成。其实类似的事情在REA也做过,在hubot的基础上扩展功能,用自然语言来实现对知识的查询,功能比Xu Wei老师要简单的多。

惊喜还没有结束,因为在上次DevOpsDay认识了这次SRECon的组织者刘俊,很荣幸的被邀请到和一众讲师以及前Google SRE,《SRE运维解密》的译者孙宇聪一起共进晚餐。除了找到讲师问了一些今天讲的话题细节,还认识了不少前辈,加完微信后才发现,好多人都在8月份的上海DevOpsDays的讲师列表里……。更神奇的事情是,来自Linkedin的SRE竟然认识以前在REA一起工作的Reed Murphy,世界真是太小了……。

席间还有圈内海量八卦,内容和下面这个Chilli Crab 一样丰富:

chilli_crab.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容