2015年5月末携程、支付宝事件分析
携程
5月28日中午11时9分开始,不少用户发现在线旅游网站携程无法打开,其APP也无法使用。到28日21点30分,携程部分网页已可以打开,但仍不能预订。直到28日23点29分才完全恢复正常。
受此影响,28日携程股价盘前暴跌11.67%,报72美元。如果以携程一季度净营业收入23亿元计算,携程瘫痪每小时损失或达106.5万美元。
事发后,在微博、微信等社交媒体迅速、广泛传播,新浪科技专题滚动直播事件处理进展,多家网站报道该事件。短时间内,公众对事件原因众说纷纭,包括外部攻击、内部员工误操作、离职员工恶意攻击等等,甚至有传言携程全线酒店数据库遭到了物理删除。
携程在5月29日表示,经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致,并保证数据和数据库并未受到此次事件的影响,用户订单数据也完整无损。
从携程的正式表态看,故障原因是代码被误删除,进而导致系统大面积故障。那么,从事件中所执行的操作看,是敏感的删除操作;从事件引发的后果看,被删除的代码应是极为敏感、重要的代码;从事件发生的时间看,这一敏感操作发生在上午11点左右的正常营运时间;从事件发生的环境看,是生产环境而不是测试、开发环境;从事件持续的时间看,数据恢复、内部调试的时间长达12小时。
这就暴露出携程存在严重的内部管理漏洞:
第一,内部人员在业务运营时间、在生产环境,执行重要、敏感的操作,表明携程缺少对重要生产变更风险的基本控制,而且,如果是内部人员在未授权的情况下开展这些操作,更说明携程在访问权限特别是高级、敏感权限的控制方面存在极为严重的漏洞;
第二,作为NASDAQ上市公司,需要遵守美国SOX法案的有关要求,携程应有较为完备的数据备份措施,但是在有备份的情况下,通常数据恢复应在1到3个小时内完成,携程的实际处置时间为12小时,这就暴露出携程对于信息系统突发事件的应对能力存在较大的缺陷,其备份数据恢复测试、突发事件的应急预案与应急演练方面很可能都存在漏洞;
第三,由于未见到有关携程启动灾备措施的报道,有理由怀疑携程缺少信息系统的灾难备份,作为一家规模较大、客户众多、对服务响应时间要求较高的互联网公司,应建立自己的灾难备份系统。
同时,此次事件也对高舆论压力下的信息系统灾难事件恢复有所借鉴。由于社交媒体、网络媒体的高度发达,作为公众公司的携程对于此次故障的处理全程处于聚光灯下,基本做到了与媒体的及时沟通以缓释舆论压力。
官方回应
携程方面向环球网科技表示,经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。
从11:09到23:29,为什么恢复时间那么长?携程方面向环球网科技表示,一般来说,类似携程这样的大型网站承载着繁多业务,其后台是一个由SOA(面向服务)架构组成的庞大服务器集群群,看似简单的一个页面背后由上千个应用子系统以及上千个Web Service组成,而每个应用子系统和每个Web Service之间都存在着相互调用的依赖关系。
发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子系统以及每个Web Service的功能正常,同时确保应用子系统与Web Service间的调用关系得以正常执行。
这种验证性的操作需要携程的工程师及运维人员通力合作,尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与Web Service功能的正常运行。
携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及App。
如何杜绝此类事件的再次发生?携程表示,携程在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。
其他回应
一位不愿透露姓名的知情人士向记者透露,以携程积累的技术实力,即便全网被攻击,要恢复数据最多也只需要一个小时。但已经过去若干小时,携程数据仍没有恢复。这些数据涉及两个层面,一个是应用层面,也就是链接跳转和页面调度,一个是数据层面,如订单生成等,目前来看,主要问题出在应用层面,这可以说是携程发展16年来遇到的最大危机,携程怀疑有内鬼搞破坏,可能还要报案。当然,如果是内部人员“不小心”永久删除了一个重要数据文件,导致恢复的内容无法匹配,也反映出携程内部管理出现严重漏洞。
猎豹移动安全专家李铁军接受记者采访时表示,携程服务中断极有可能是内部管理失控导致,通常黑客从外部攻击很难做到让数据大量丢失,且备份远不至于拖延太久。通常黑客入侵往往只是悄无声息地拿走核心数据,一般不会进行破坏性操作。携程这次事故综合各方面信息来看,像内部人员所为(有可能已经造成数据损失)。以往携程方面也曾经被披露过一些安全漏洞,这些漏洞几乎不影响该公司的正常业务,受到威胁的往往只是用户。
业内人士表示,拥有大数据的互联网公司应对天灾人祸有一套严格的防范措施。灾备系统。同时,三份之一的安全问题是人为操作导致,人为安全问题需要制度、流程、技术手段方面的防控。
支付宝
蚂蚁金服集团旗下的浙江网上银行在5月27日正式获批开业,同日,阿里集团下重要的产品——支付宝发生了大约2.5小时的中断。支付宝官方给出的解释是通信光缆被施工人员挖断,造成网络中断。中国电信对事件的表态与支付宝的解释一致。
对此次事件,批评者认为支付宝还缺少金融级的信息系统灾难恢复能力,原因显而易见,支付宝没有做到迅速切换至备份网络通信线路。但是支付宝对此不置可否,况且,还进一步释放消息称此事件表现出阿里云计算架构的优势。
有赖于阿里集团一贯出色的公关能力,此事件的相关深入分析并不多见。但是,当前,支付宝的影响力已经不容忽视,其风险已经能够对整个社会秩序产生较大的影响,对其应按照或参照更加严格的金融业标准进行监管以控制风险。