引子
早上醒了,百无聊赖,刷了下微博,一微博号发了如下一条信息:
今天就发生2起故障,连续受惊。国内外有没有运维天王写的什么书或者资料学习一下啊。我现在这个情况怎么提高了,搞来搞去也是小学生水平。叹息阿,现在估计要从大厂招一个天王级运维,没有80万是拿不下了
后有一资深专家总结的很精辟:
运维工作无非三大块,配管、监控、数据分析。@itnihao 的zabbix 的书、@守住每一天 puppet相关的,已经@argv 的ETL Stack相关的书。 我觉得@梁斌penny 都可以看看。像google的sre book啊,更早之前yahoo的webops book啊,层次虽然更高,落地还是要实在点。当然鸟哥私房菜肯定是基础
不过显然是从运维工程师的技能出发点来说的。而原博的诉求点显然是:
- 自己学习还是有难度的
- 请大厂运维现在又太贵了
- 我实在是好纠结,好难受。
让人推荐快速学习的方式,却也是极度无奈之举。而且运维也不是一日练成的。就算大师提供了很好的指导,也终究是拿自己的线上产品练手了,这样显然是得不偿失的。现如今,一个创业公司的产品不稳定,造成的问题是巨大的。比如摩拜单车最近就故障频仍,造成的不良影响其实是非常大的,但是因为整个市场发展是往前走的,倒不会因为一两次的故障而改变这种趋势。但是如果没有这些故障,想必会更好吧。
问题在哪里
运维理论上不应该那么依赖于人的技能。但是现实情况是,你必须要有好的运维
才能保证系统更加稳定。而对于一个初创企业,显然陷入了一个困难的处境。如何让一个普通的开发也能搞好的运维呢? 核心是一个
一站式的的运维平台
按前面那位大神说的,运维无外乎三大块:
- 配管
- 监控
- 数据分析
我再加一个:
- 部署(包括扩容)
- 配管
- 监控
- 数据分析
应用的生命周期管理自然是包括在每一个大块里的。满足这四点的运维平台其实就是一个分布式操作系统。 Zabbix 你可以认为是特定的一个视窗软件,Puppet 可以认知为分布式shell。ELK则是基于这个分布式操作系统的一个分布式日志应用。ELK是高度灵活的,所以每个人玩法一样,但是做实施起来迥异。我所看到的是ELK的实施难度还是颇高的,ELK如果想做轻松了,其实还连带一系列要求的,比如日志的规整化。而且里面除了E以外的模块,都是在特定场景需要替换的。
然而似乎现在运维界缺乏这么一个分布式系统。导致普通开发无法像在windows操作系统一样,点击点击就可以管理起所有服务器以及各种应用了。
问题解决之道
工具化是王道。然而如何工具化是难点。方向不对,谬以千里。比如运维之前也做过大量的工作,做了各种工具,但是存在我之前在 运维=平台+数据
提到的问题:
- 工具碎片化
- 工具难以标准化
- 工具不可复制
- 生态积累难度大
分布式系统基本就可以解决这些问题了。分布式系统自己可以解决部署,配管,以及部分监控。数据分析则需要基于分布式系统之上的应用解决(基于该分布式系统调教出来的ELK套件)。这样,基本就完美解决了所有的问题。分布式系统提供了一个一致的交互界面-web。同时也暴露了底层的分布式shell引擎以及可供应用交互的系统层级API。
这块这两三年我们已经有了一定的实践。期望未来能够很快推出,造福大家。