1.Octo、Http服务可用性<99.9%
每周可用性低于99.9%且失败总数>=50
1)起因:查账单sql慢,发现是调es慢,es不能改造,需调大超时阈值,如很高,会有很多人看不到,做个权衡调整阈值。看99线(本周超时5.6次,0.00013不需调)
2)查看QPS、99线等指标
进入Raptor,找服务appkey,点octoService看接口各项指标
考察服务器性能,除QPS,还考察响应时间(负载增加,响应长)
平均值:服务当前响应所有请求耗时平均值
中位值:150ms,一半请求耗时小于150ms
P95,P99:响应耗时从小到大排列顺序处于95%位置为P95。P95=180ms,95%请求耗时<180ms
QPS:规定时间内所处理流量
2.TP99>2000ms(每周long-service日均值)
3.long-sql>1000ms 且 count > 500数量(周日均值)
4 ERROR数过多(>1000/天)
5 long-mq>300ms(日均值、趋势图,关注积压)
6 服务利用率
着重看一下核心服务,利用率大于45%则需要申请机器(机器配置:8C16G),86台3机房,目前24%
7 mysql集群利用率
1主3从 每个节点总空间5.7tb 利用率80%
8 ES集群利用率
共71个节点,3个主节点(1主2从),68个数据节点。每个数据节点800G存储空间。利用率20%