一、话术层面(偏业务,可以用来给客户讲)
智能餐厅,是新餐饮趋势。点餐、下单、结账,全部都依赖与智能餐厅整套系统,对系统稳定性要求极高。
可靠性建设已经作为今年雅座的重点工作,投入专项资金组建专业的可靠性保障团队,全面负责可靠性建设,不管雅座能否控制的部分,都会负责到底,必须成为行业内最稳定的智能收银。
影响稳定性的因素很多,比如服务器故障、业务量突增、恶意攻击、电信骨干网,甚至门店网络等等。
其中有雅座能控制的,也有雅座控制不了的,也就是不可控的,比如电信骨干网,或者店内网络。
比如
服务器及数据库故障,我们会全面采用阿里云最高规格的硬件,底层保障交给阿里云。
业务量徒增,18年我们会实现分钟级的服务器自动扩容。
恶意攻击攻击,今年我们会采购阿里云最高规格的防火墙及安全隔离软件。
电信骨干网,目前雅座已经实现了北京、杭州南北双网络入口,南北方客户都可以稳定接入。
店内网络,今年雅座一体机内,会内置智能的网络检测模块,一键定位故障源,帮您快速回复网络。
最后的最后,即便网断了、服务坏了,我们会准备一套健全的应急方案,给到雅座客户,确保一切信息化手段失效时,依然能够正常营业。
服务器容量,点餐、下单、结账类核心业务,线上预留3倍计算量,确保任何情况下的计算能力富余。
服务器容量,分钟级扩容。
赔偿政策,未来可以考虑参考阿里云的方式,给客户承诺100倍赔偿,如果因雅座原因导致1小时客户无法使用,赔偿100小时系统服务费。
让客户放心
未来可以考虑参考阿里云的方式,给客户承诺100倍赔偿,如果因雅座原因导致1小时客户无法使用,赔偿100小时系统服务费。
二、技术层面(我们技术层面解决问题的思路,给客户讲可能比较难懂)
参考SRE思想(Site Available Engineer)
14年Google公开出来,Facebook、Twitter、LinkedIn都在采用,15年传入国内,16底年阿里巴巴全面引入。
SRE团队涵盖相关所有领域,一起对同一个、明确的、绩效目标负责(例如:Q2发生MOT总计不超过1起)
引导技术团队对结果负责,从避免事故的手段看待问题,而非事故表面责任方。
引导研发、质控、架构、运维各部门主动协作,主动担责、主动补位、主动求助。
我们怎么做
1、组建专业的可靠性保障团队,对明确的绩效目标负责:白鲨项目MOT数下降80%,且全年不发生重大事故。
足够的资源支持。
风险挖掘分析。
事前风险排除、监控系统建设。
事后应急预案,应急预案持续演练。
2、所有风险统一研判,制定统一行动计划
可靠性相关的工作,由可靠性保障团队牵头,研发、质控、架构、运维,统一行动、成果互补。