系统可用性测量
宕机:无计划、有计划。
无计划包括一一
系统级故障,包括主机、操作系统、中间件、数据库、网络、电源以及外围设备。
数据和中介的故障,包括人员误操作、硬盘故障、数据乱了。
还有自然灾害、人为破坏,以及供电问题等。
有计划的包括一一
日常任务:备份,容量规划,用户和安全管理,后台批处理应用。
运维相关:数据库维护、应用维护、中间件维护、操作系统维护、网络维护。
升级相关:数据库、应用、中间件、操作系统、网络,包括硬件升级。
故障分类:
网络问题。网络链接出现问题,网络带宽出现拥塞……
性能问题。数据库慢 SQL、Java Full GC、硬盘 IO 过大、CPU 飙高、内存不足……
安全问题。被网络攻击,如 DDoS 等。
运维问题。系统总是在被更新和修改,架构也在不断地被调整,监控问题……
管理问题。没有梳理出关键服务以及服务的依赖关系,运行信息没有和控制系统同步……
硬件问题。硬盘损坏、网卡出问题、交换机出问题、机房掉电、挖掘机问题……
#弹力设计之隔离设计#
按服务种类分离:
·跨板块取数据性能低、数据合并计算复杂、业务流程跨板块时一个服务down就全跪了、跨板块交互复杂、跨板块事务需要二阶段提交。(通常引入大量异步处理模型)。
按角色分离:(多租户模式)
完全独立、服务共享 数据隔离、服务共享 数据共享。
隔离设计的重点:
1. 业务大小粒度
2. 复杂度、成本、性能、资源
3. 高可用、重试、异步、消息中间件、流控、熔断等设计模式
4. 自动化运维
5. 监控系统