一、新增主动告警和预告警能力
系统具有提取被监控系统资源URL、API、APP、sql、及定制业务流程等能力,通过端到端关联,能把资源串联展现。实现了基础资源展示和资源整合展示。在客户实际运营环境中资源的展示不能直接驱做一个决策,不能得出被监控系统已发生故障结论或即将出现故障结论,不能在第一时间主动告知客户哪个服务器、哪个资源、哪个业务出现了故障或者即将会出故障。往往是业务管理部门或者系统管理部门接收一线工作人员故障反馈后,才开始抓业务厂家排查解决问题。对于我们监控系统,可能会想着为什么没有第一时间告知故障或者故障预告,一般我们系统展示的告警、系统&业务健康度客户不会实时去关注。基于此情况,建议我们系统增加故障主动告警和预告警能力,通过和客户一起商讨告警模型建立,例如web端响应时长大于阈值的数量超过N个,并且在持续增减率超过N就进行符合相应模型的告警,告警准确率在应用中不断验证,不断优化告警模型。
二、新增业务系统评价能力
针对系统配置或发现的资源,进行整体处理能力评价,可跟历史数据和配置指标进行比对评价。
应用场景1:评价系统资源(URL、API、APP、sql)处理能力
对资源划分类型:核心、高、一般,不同类型一个处理时长,可对单个资源调整指标。
页面展示:比对结果按降序排序展示,按分类等维度查询,并对结果进行汇总,核心api超时xx个,等。
应用场景2:评价服务器请求量是否符合规划,例如规划api都是均分
针对同一类型的服务器进行请求量统计展示,偏离平均值大的进行告警
应用场景3:评价服务器+资源请求量
针对同一类型的服务器+资源请求量进行请求量统计展示,偏离平均值大的进行告警
应用场景4:评价升级版本后资源处理
定义一个比较基线,如升级前5天的评价处理能力。页面展示各个资源核对结果。对差异大的进行告警处理。
应用场景5:发现是否有违规版本上载情况
根据已有资源对比,发现每天新增的资源。页面进行展示。
应用场景6:评价系统易操作性
抓取系统提示内容或者报错内容,按降序展示,客户根据这个信息发起对系统的整改。
应用场景7:某个营业厅或者分公司反馈业务慢,其他分公司正常
获取业务系统的营业厅和分公司配置,显示按分公司和营业厅展示资源处理能力。
针对资源的处理能力评价,我们可以发展为一个行业评价系统,类似软件评测机构。