北京时间 6 月 27 日下午,阿里云服务器挂了。市场占有率达到 47.6% 的阿里云宕机,影响到了中国互联网半壁江山。对此,各种传闻伴着吐槽声此起彼伏,甚至有人声称此次事故是由两个实习生造成的。
事件发生后,阿里云在迅速人肉修复故障,并发表了正式说明:
“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”
实际上,不管是大厂还是中小型云服务提供商,这些年来,不管是技术层面的宕机事故还是各家之间的市场竞争,一直都不是什么新闻。
亚马逊云
2017 年 2 月,云计算巨头 AWS S3 故障,事件的起因是 AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的 S3 计费流程服务器移除,可是最终意外移除了大量服务器。被错误移除的服务其中运行着两套 S3 的子系统,从而导致 S3 不能正常工作,S3 API 处于不可用状态。
微软云
2017 年 3 月 22 日,微软云服务宕机。Skype、Hotmail、Outlook、 OneDrive和 Xbox Live 都出现了网络故障,导致全球用户都无法登录。英国海岸和美国海岸城市的 Outlook 邮箱系统的用户受到的影响特别严重。
QingCloud
2017 年 6月,青云 广东 1 区全部硬件设备因遭遇雷暴天气引发电力故障,造成 QingCloud 官网及控制台短时无法访问、部署于 GD1 的用户业务暂时不可用。
在业务恢复后,青云方面披露了合作运营商针对事故的调查原因:
直击雷导致电力系统出现瞬时浪涌,UPS 启动自我保护,从而释放电流导致瞬间断电;
虽然机房配备了四级防雷,但主要是防止感应雷,对于此次直击雷,机房完全没有招架之力。
腾讯云
2014 年 11 月 2 日,腾讯云服务器出现了六分钟的访问故障。腾讯云平台部方面表示,此次访问故障主要是上海和广州机房的服务器出现故障,机房网络出口抖动造成的,而网络抖动是源于运营商网络信道阻塞,导致用户连接服务器出现丢包等现象。
而除了以上这些着实令用户比较无奈的技术层面故障外,也有令厂商们无奈的:
磐石云
磐石云在其上线之初后,推出了一个价格优惠活动。据悉,由于价格环节操作失误,原本为4000元的套餐,少输了两个0,而后30分钟内,较往常新增了两百多个订单,损失巨大。据悉,厂家后面还是按用户成交价为自己的失误买了单。
华为云&阿里云
近日,阿里云和华为云互相怼上了,只因华为云涉嫌提供虚假材料谋取中标,让阿里云失败。阿里云不甘心投诉华为云,可是没想到被财政部驳回,官方给出的结论是“经审查取证,认为投诉缺乏事实依据,驳回投诉”。本是实力占有的阿里云在这场“纠纷”中输给了华为云。
处理危机的方式能看出一个公司的高度
其实,不管是技术还是服务层面的故障或者问题,有时候难免会发生。相信问题发生之后,用户更想看到的是厂商公开其故障及处理流程的态度及做法。哪怕是一个低级的人为错误,不掩盖、不文过饰非,才会是用户最终会再次选择你的理由。
不妨吐槽下这些年,你遇到过的那些云服务的坑。