springcloud入门系列（8）分布式服务跟踪sleuth＋zipkin

分布式服务跟踪需求

随着分布式服务越来越多，调用关系越来越复杂，组合接口越来越多，要进行分布式服务跟踪监控的需求也越来越强烈，对于项目负责人当生产环境出现问题的时候需要第一时间知道哪个服务节点出现了问题，这就需要我们能够通过监控系统第一时间发现。

分布式服务跟踪现状

目前主流的分布式服务跟踪开源框架主要有3个，大家用的比较多的是点评的CAT、pinpoint和sleuth＋zipkin，下面分别介绍下这几个框架的优缺点，之前我们公司内部也都使用过。

CAT：大众点评开源的内部服务跟踪框架，可以监控服务的关联关系，每个服务节点的耗时情况，数据库的耗时、网络的故障等等，监控的内容还是很全面的，但是需要注意的是CAT对代码存在一定的侵入性，需要对杯监控的方法增加注解才能完成服务监控；

pinpoint：是一个韩国人写的开源服务跟踪框架，pinpoint的好处就是对被监控的工程代码没有侵入性，只需要集成pinpoint的jar包就可以完成基本的服务性能监控了，上手非常简单；

sleuth＋zipkin：适合于公司使用springcloud框架的工程，集成起来更加方便，能和springcloud相关套件配合使用，能够监控到服务依赖关联、服务耗时等基本信息，也提供了丰富的查询功能，方便快速定位问题。

这3个开源框架，各有优缺点，CAT的优点是有更强的定制性，不仅仅局限在APM信息监控，还可以进行更多的功能拓展；pinpoint的优点就是容易上手，但是很难进行后续的功能扩展；sleuth的优点是在springcloud工程中集成非常简单，但也是后续很难进行功能扩展。

springcloud中的服务跟踪解决方案

springcloud作为主流的微服务框架中比较成熟的服务跟踪解决方案那就是sleuth＋zipkin，如果公司内部是实用springcloud作为基础搭建微服务的，建议直接使用sleuth和zipkin，sleuth作为服务跟踪框架，zipkin作为服务跟踪展示框架，能够方便的查看出每个服务节点的耗时情况，并能够将组合服务的调用关系链直观的展示出来，方便发现问题，并且对微服务工程的侵入性比较小。

sleuth＋zipkin原理

sleuth+zipkin的分布式服务跟踪方案和pinpoint一样都是根据google早年间发布的Dapper论文来实现的，这里简单描述下分布式服务跟踪的核心原理，要实现一个业务的全流程跟踪，那么每个全流程交易首先必须要有一个贯穿于全链路的TraceID用于标记出各个服务节点中哪些交易是归属于这笔业务交易的，但是我们筛选出了所有相关交易后还是无法知道每个服务节点之间的依赖关系和先后顺序关系，那么就还需要有一个表示这笔子交易的ID，因此在Dapper论文中又定义了一个SpanID，SpanID可以理解为在每个服务节点的最小工作单元，例如一个基本交易包含了请求和响应两个动作，那么就可以请求和响应各分配一个SpanID来唯一标示这个动作，请看下图，标示了3个串联调用的服务，每个服务都有一个请求动作和一个响应动作，在每个动作开始的时候都会分配一个唯一的SpanID，同时会将同一个TraceId一直传递下去。

Screenshot 2018-06-14 10.21.09

在每个服务节点都集成sleuth服务，sleuth服务会自动为每笔交易动作第一个服务节点生成一个全局唯一TraceId，这个TraceID会一直跟随交易传递下去，同时sleuth会为当前的动作再生成一个全局唯一的SpanId，在SpanId中可以体现出这个动作的上一个父动作的SpanId，同时也包含了动作发生时间信息，通过这些信息就能够还原出一棵交易的树形结构，通过对每个动作的开始、结束时间求差就能知道该笔交易每个动作之间的耗时。

上面介绍了sleuth的大概原理，下面再介绍下zipkin的原理，zipkin在整个服务跟踪里是用于接收sleuth为每个交易生成的TraceId和SpanId，zipkin对收集到的这些信息进行实时计算后进行一个树形结构的耗时展示，同时也提供了准实时查询功能，只需要通过简单的配置就能够满足基本的分布式服务跟踪需求。

微服务工程支持sleuth客户端

下面介绍下在sleuth客户端的开发工作，只需要进行POM的配置，工程引入对sleuth的两个依赖（最后两个），就可以自动监控分布式服务了，非常简单。

<dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-eureka</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-ribbon</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-sleuth</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-sleuth-zipkin</artifactId>
        </dependency>

    </dependencies>

下面这两条分别是两个服务在console里打出的日志信息，我们可以发现在日志头部多了几个信息。

[sleuth-testservice1,5856e53b441a241a,5856e53b441a241a,false] 1244 --- [nio-9091-exec-2] c.m.t.controller.TestController1         : ===call testController1===

[sleuth-testservice2,5856e53b441a241a,b1573c23f0322ab1,false] 1246 --- [nio-9092-exec-1] testservice.controller.TestController2   : ===call testController2===

第一个值：sleuth-testservice1，它记录了应用的名称，也就是application.yml中spring.application.name参数配置的属性。
第二个值：5856e53b441a241a，Spring Cloud Sleuth生成的一个ID，称为Trace ID，它用来标识一条请求链路。一条请求链路中包含一个Trace ID，多个Span ID。
第三个值：5856e53b441a241a，Spring Cloud Sleuth生成的另外一个ID，称为Span ID，它表示一个基本的工作单元，比如：发送一个HTTP请求。
第四个值：false，表示是否要将该信息输出到Zipkin等服务中来收集和展示，如果为true则表示该笔日志信息会传递到zipkin服务器进行统计，sleuth不是每笔交易都会上送zipkin，一般5笔交易会有一笔抽样上送zipkin，这么做是为了保证zipkin的性能。

上面四个值中的TraceID和SpanID是Spring Cloud Sleuth实现分布式服务跟踪的核心。在一次服务请求链路的调用过程中，会保持并传递同一个TraceID，从而将整个分布于不同微服务进程中的请求跟踪信息串联起来，以上面输出内容为例，sleuth-testservice1和sleuth-testservice2同属于一个前端服务请求来源，所以他们的TraceID是相同的，处于同一条请求链路中。

同时为了将服务跟踪日志能发送到zipkin服务端进行统计，还需要在application.yml中配置zipkin的服务端地址。

server:
  port: 9092
spring:
  application:
    name: sleuth-testservice2
  zipkin:
    base-url: http://XX.XX.XX.XX:9411
eureka:
  client:
    serviceUrl:
      defaultZone: http://XX.XX.XX.XX:8761/eureka/

zipkin服务端

zipkin的服务端配置也非常简单，只需要两步配置。
首先在POM中引入zipkin的相关依赖，如下：

<dependencies>
        <dependency>
            <groupId>io.zipkin.java</groupId>
            <artifactId>zipkin-server</artifactId>
        </dependency>
        <dependency>
            <groupId>io.zipkin.java</groupId>
            <artifactId>zipkin-autoconfigure-ui</artifactId>
        </dependency>
    </dependencies>

再创建一个springboot的Applicatoin启动类，在启动类中加上 @EnableZipkinServer zipkin服务器注解，在需要被跟踪监控的sleuth客户端的配置文件中加上zipkin服务器地址的配置，上面也介绍过了。

@EnableZipkinServer
@SpringBootApplication
public class ZipkinApplication {
    public static void main(String[] args) {
        SpringApplication.run(ZipkinApplication.class, args);
    }
}

打开http://XX.XX.XX.XX:9411/ 地址就可以查看到zipkin的console页面，在页面中输入需要查询的关键字和起止时间就可以进行查询了，这里需要注意因为sleuth并不是所有跟踪日志都会发送到zipkin，所以在zipkin查询到的只是一个采样统计。

Screenshot 2018-06-11 15.42.57

点开一个组合交易，可以看到这个组合交易由两个服务组成，图中也显示了节点耗时。

Screenshot 2018-06-11 15.43.15

点开后还可以看到每一个链路动作的明细信息。

Screenshot 2018-06-11 15.43.37

总结

这样就把在springcloud中通过sleuth、zipkin进行监控的过程从原理到实现进行了一个简单的介绍，总的来说还是比较简单的，原理也不是很复杂，感兴趣的同学还可以翻看下相关源码，sleuth的核心是唯一发号器和动态代理，zipkin的核心是交易的树形结构的生成和内存实时统计，本文涉及到的源码都加到了入门系列的工程中，感兴趣的可以下载下来看看，涉及到的模块有zipkin－server、sleuth-testservice1、sleuth-testservice2。

源码git：https://github.com/feiweiwei/springcloud-sample.git

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342