调研开源系统的健康检查功能

一、 For What

简化排查。类似360的“体检报告”，打开页面能快速查看是否正常、异常的话原因是啥
多年前在工作中自己搞过个
监控报警，即时发现问题
自动化运维处理
比如部署系统基于健康检查来自动控制引流，停止继续分批部署等；
比如注册中心/lb基于健康检查来切流、剔除节点。
比如资源调度系统基于健康检查来自动重启容器等

二、分类

https://mozillazg.com/2019/01/notes-about-design-health-checking.html
健康检查分为很多层，技术层、业务层都有自己的健康检查语义
因此框架应该允许业务层自己实现健康检查插件

三、基于健康检查的监控系统/资源调度系统 vs 基于日志的监控系统

看起来基于健康检查的监控系统和基于日志的监控系统实现的功能一样，有啥区别？
可以这样想，健康检查与基础设施对接的接口有很多种：
a. 暴露API
b. 调用infra的API进行上报
c. 打日志
d. exec

比如发布时，部署系统要基于健康检查来自动控制引流，停止继续分批部署，这时候就不适合日志，要用API；
运行时的话这几种都行，如果已有基于日志的监控系统，为了复用基础设施可以考虑用日志形式做健康检查。

四、产品设计调研

4.1. spring boot actuator

videos:
https://www.bilibili.com/video/BV1Nf4y117W6?p=4

blogs:
https://bigjar.github.io/2018/08/19/Spring-Boot-Actuator-健康检查、审计、统计和监控/
https://www.liaoxuefeng.com/wiki/1252599548343744/1282386381766689
https://www.baeldung.com/spring-boot-actuators

开了很多类型的http接口供查询运行时信息。接口列表见：
https://docs.spring.io/spring-boot/docs/current/reference/html/production-ready-features.html#production-ready-endpoints

OOD：
endpoint---(group)---indicator

数据模型:
/actuator/health
https://spring.io/blog/2020/03/25/liveness-and-readiness-probes-with-spring-boot

// http://localhost:8080/actuator/health
// HTTP/1.1 200 OK

{
  "status": "UP",
  "components": {
    "diskSpace": {
      "status": "UP",
      "details": { //...
      }
    },
    "livenessProbe": {
      "status": "UP"
    },
    "ping": {
      "status": "UP"
    },
    "readinessProbe": {
      "status": "UP"
    }
  },
  "groups": [
    "liveness",
    "readiness"
  ]
}

/actuator/health/liveness
https://segmentfault.com/a/1190000022515968

{
  "status": "UP",
  "components": {
    "livenessProbe": {
      "status": "UP"
    }
  }
}

/actuator/info
1.x版本的数据结构如下：
https://www.baeldung.com/spring-boot-actuators#4-info-endpoint

{
    "app" : {
        "version" : "1.0.0",
        "description" : "This is my first spring boot application",
        "name" : "Spring Sample Application"
    }
}

UI:

spring-boot-admin 图形化监控
社区写的一个dashboard项目
https://segmentfault.com/a/1190000017816452
Spring Boot 系列教程_哔哩哔哩 (゜-゜)つロ干杯~-bilibili
Spring Boot Actuator可以将数据接入Prometheus+Grafana
就是开个http接口给Prometheus调用
https://bigjar.github.io/2018/08/19/Spring-Boot-Metrics%E7%9B%91%E6%8E%A7%E4%B9%8BPrometheus-Grafana/#%E5%A2%9E%E5%8A%A0Micrometer-Prometheus-Registry%E5%88%B0%E4%BD%A0%E7%9A%84Spring-Boot%E5%BA%94%E7%94%A8

4.2. k8s

https://open.163.com/newview/movie/free?pid=NFVMPP3I7&mid=DFVMPV196
Kubernetes中的健康检查使用存活性探针（liveness probes）和就绪性探针（readiness probes）来实现。
目前支持的探测方式包括：

HTTP

Kubernetes去访问一个路径，如果它得到的是200或300范围内的HTTP响应，它会将应用程序标记为健康。否则它被标记为不健康。

TCP
Exec命令

另外有graceful shutdown的能力
https://aijishu.com/a/1060000000024274

Q: liveness vs readiness ?感觉有重复？
https://segmentfault.com/a/1190000022053869
https://blog.colinbreck.com/kubernetes-liveness-and-readiness-probes-how-to-avoid-shooting-yourself-in-the-foot/#fnref2
https://blog.colinbreck.com/kubernetes-liveness-and-readiness-probes-revisited-how-to-avoid-shooting-yourself-in-the-other-foot/
两个语义，一个管重启，一个管切流

readiness.gif

liveness.gif

Q：怎么避免集群自动化重启风暴？
A: 不在liveness里检查依赖项
https://blog.colinbreck.com/kubernetes-liveness-and-readiness-probes-how-to-avoid-shooting-yourself-in-the-foot/#fnref2
https://blog.colinbreck.com/kubernetes-liveness-and-readiness-probes-revisited-how-to-avoid-shooting-yourself-in-the-other-foot/

Q: 开放liveness接口 vs 直接让进程异常退出
A：两者都能实现被k8s自动重启的效果，但个人认为后者更好。因为前者的设计是强依赖k8s probe逻辑，后者的设计并没有这种依赖

Q: liveness检查，启动中是返回啥?
A: 失败，不用担心启动中被kill，initialDelaySeconds参数告诉kubelet在第一次执行probe之前要等待多久，过了这个时间再检测、如果还是启动中也算启动超时、可以kill掉换机器部署了
https://jimmysong.io/kubernetes-handbook/guide/configure-liveness-readiness-probes.html
https://blog.csdn.net/cainiaofly/article/details/84324321

4.3. spring on k8s

https://segmentfault.com/a/1190000022515968
可以通过"/actuator/health/liveness" 和 "/actuator/health/readiness"访问获得。
接到Graceful shutdown的通知后，内嵌的web服务器会拒绝接受新请求:

所有四个嵌入式Web服务器（Jetty，Reactor Netty，Tomcat和Undertow）以及基于响应的和基于Servlet的Web应用程序都支持正常关闭。启用后，应用程序关闭将包括可配置持续时间的宽限期。宽限期内，现有请求将被允许完成，但新请求将被禁止。不允许新请求的确切方式因所使用的Web服务器而异，Jetty，Reactor Netty和Tomcat将停止接受请求Undertow将接受请求，但会立即以服务不可用（503）响应进行响应。

4.4. service mesh中的sidecar

envoy

健康检查别人

sidecar作为lb，检查转发到的机器
https://www.qikqiak.com/envoy-book/detect-service-health-with-healthchecks/
https://www.servicemesher.com/envoy/intro/arch_overview/health_checking.html
- 主动
有快速失败机制
https://www.servicemesher.com/envoy/intro/arch_overview/health_checking.html
有过滤器机制
- 被动
sidecar之间?
量太大，是否保护本地服务
https://www.servicemesher.com/envoy/intro/arch_overview/health_checking.html

供infra检查

sidecar内部
Envoy 的健康检查接口 localhost:15020/healthz/ready
会在 xDS 配置初始化完成后才返回 200，否则将返回 503
https://zhaohuabing.com/post/2020-09-05-istio-sidecar-dependency/
sidecar服务的app
看着就是infra(k8s)的检查透传给本地服务，可以配置过滤器
https://www.servicemesher.com/envoy/intro/arch_overview/health_checking.html#arch-overview-health-checking-filter
https://zhuanlan.zhihu.com/p/335008284

Dapr

自己不去健康检查别人，只开接口供infra检查。

sidecar内部状态
就是开个http接口，比如curl http://localhost:3500/v1.0/healthz 返回个http状态码
能自动改k8s配置，与k8s probe集成
https://docs.dapr.io/developing-applications/building-blocks/observability/sidecar-health/
https://docs.dapr.io/zh-hans/developing-applications/building-blocks/observability/sidecar-health/

API:
https://docs.dapr.io/zh-hans/reference/api/health_api/

sidecar服务的app
有dapr调app检查actor状态的接口
https://docs.dapr.io/reference/api/actors_api/#health-check
另外有Querying actor state externally

4.5. 有哪些基于健康检查来做事的infra?

资源调度系统
k8s
监控系统
比如Spring Boot Actuator可以将数据接入Prometheus
https://bigjar.github.io/2018/08/19/Spring-Boot-Metrics%E7%9B%91%E6%8E%A7%E4%B9%8BPrometheus-Grafana/#%E5%A2%9E%E5%8A%A0Micrometer-Prometheus-Registry%E5%88%B0%E4%BD%A0%E7%9A%84Spring-Boot%E5%BA%94%E7%94%A8
load balancer/注册中心
可能是load balancer自己调接口做健康检查，也可能是自动化运维系统做健康检查、发现异常后调load balancer切流

4.5. 业界有哪些数据规范

监控指标采集、上报的规范

Micrometer

jvm内部的API规范。Think SLF4J, but for application metrics

MicroMeter是一款针对JVM应用的Metrics指标监测库，应用程序通过调用其提供的通用API来收集性能指标，并对接多种当前流行的监控系统，如Prometheus、Datadog。因其内部实现了对不同监控系统的适配工作，使得切换监控系统变得很容易。其设计宗旨即在提高可移植性的同时，几乎不增加指标收集活动的开销，号称监控界的SLF4J，对于SLA指标的测量非常方便。
https://www.freesion.com/article/55201066755/

https://www.cnblogs.com/cjsblog/p/11556029.html
https://www.tony-bro.com/posts/1386774700/index.html

Prometheus等都是有自己的数据采集规范

https://segmentfault.com/a/1190000023491231

健康检查的规范

k8s是自己的规范：看http状态
spring-boot也是自己的

服务发现的规范（和健康检查无关）

Xds
xds api 在envoy中被称为 Data plane API
https://skyao.io/learning-envoy/xds/
https://www.servicemesher.com/blog/the-universal-data-plane-api/
https://cloudnative.to/envoy/intro/arch_overview/operations/dynamic_configuration.html
HDS

// HDS is Health Discovery Service. It compliments Envoy’s health checking
// service by designating this Envoy to be a healthchecker for a subset of hosts
// in the cluster. The status of these health checks will be reported to the
// management server, where it can be aggregated etc and redistributed back to
// Envoy through EDS.
https://github.com/envoyproxy/data-plane-api/blob/main/envoy/service/discovery/v2/hds.proto

envoy要负责health check别的节点，hds看着是控制这功能的策略

最后编辑于：2021.05.20 14:14:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,386评论 6赞 479
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,939评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,851评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,953评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,971评论 5赞 369
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,784评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,126评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,765评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,148评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,744评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,858评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,479评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,080评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,053评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,278评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,245评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,590评论 2赞 343