线上故障排查思路
1、个例还是大规模问题
2、是否有版本升级
3、服务、依赖服务、数据服务是否存活,是否出现服务进程被异常关闭的情况
4、服务日志是否有报错
5、网关、依赖服务日志是否有报错
6、用户量是否出现激增
7、请求量是否激增,是否有羊毛党或恶意刷接口情况
8、服务所在服务器CPU、内存、磁盘是否正常
9、服务所用数据库、缓存redis服务是否正常
10、数据库、缓存服务所在服务器CPU、内存、磁盘是否正常
11、机房网络是否正常,是否有修路挖断电缆的情况
线上故障处理思路
1、发布的版本,如有相关的H5、后端服务进行回退;若是终端版本,应用市场无法回退的,后端做兼容处理,APP发版迭代
2、根据服务日志、网关日志、依赖服务日志定位解决问题,并紧急发布修复
3、服务器、数据库扩容,服务、数据库限制的内存、线程数扩大或增加服务器
4、如数据库锁死,则需解锁
5、启动羊毛党、恶意强刷拉黑机制
6、如大量影响用户正常使用,终端展示说明、安抚公告
规避防范思路
1、增加紧急异常情况处理机制:
(1)上游请求激增的情况,高频请求的ip、设备、账号直接拦截,或扩容
(2)下游服务宕机的情况,解耦处理
(3)网关异常且一时间无法恢复的情况,绕过网关处理
2、监控警报:
(1)服务器、服务、数据库监控
(2)服务核心业务功能监控
(3)核心接口请求量监控
(4)用户访问量监控,当用户激增尚未报错时也做好准备