今天在倒时差, 顺便看了同事推荐的关于 SRE 的视频 Notes From Production Engineering, 内容是关于 Facebook 是如何做 Production Engineering (Google 叫做 SRE )工作的, 很有启发. 做几条笔记.
两句名言
All great changes are preceded by CHAOS
伟大的改变都始于混乱
FIX MORE, WHINE LESS
多做事, 少逼逼.
不解释, 有共鸣的自然懂.
SRE 需求层级
视频中提出了一个 SRE 的需求层级, 从下到上依次是:
- 硬件初始化
- 服务器监控与生命周期管理
- 服务监控与部署周期
- 扩展性和灾难恢复
- 性能优化
- 1% stuff (或许是造轮子/尝试新想法?)
看完视频收获很多. 但一宿没睡了也没啥可以写的. 推荐看视频. 对了, Google SRE 团队出了一本书: Site Reliability Engineering, 非常系统的介绍了他们是如何做 SRE 的, 也非常推荐阅读
-- EOF --