记一次sleuth发送zipkin异常引起的OOM

一、问题背景

一次生产事故,线上服务响应慢;
作为常规操作,服务的VM启动参数有配置OOM提取内存DUMP信息:

-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/dump-path/

这是个好习惯。

使用Eclipse MAT分析dump文件,大对象视图如下:

大对象

一种对象占据了1.8G的JVM内存空间,程序配置的最大堆大小是2G;很明显,这是由于程序问题引起的单一对象大量产生,而又一直引用可达,造成JVM无法GC引起的OOM。

二、MAT分析

接下来继续使用MAT,分析对象产生的堆栈:

总结性描述

这是一个总结性的描述,意思是一个zipkin2.reporter.InMemoryReporterMetrics类的实例占据了96.09%的堆空间,而内存的增加是由于java.util.concurrent.ConcurrentHashMap$Node[]实例的堆积引起的。

通过这个总结性的描述信息,大概能够知道去InMemoryReporterMetrics这个类找问题了。

1)到内存积累点的最短路径

MAT还提供了视图Shortest Paths to the Accumulation Point来定位大对象产生的引用关系:

最短路径

通过这个视图,大对象的引用关系是:

AsyncReporter.Builder ->
AsyncReporter.BoundedAsyncReporter(metrics属性) ->
InMemoryReporterMetrics(messagesDropped属性)

2)大对象内容

既然大对象是ConcurrentHashMap$Node的实例,那么可以通过了解Node的具体内容,来定位问题;

通过MAT,还可以看到堆积的大对象的具体内容。

操作方式是:

outgoing references

得到大对象内容:

大对象内容

任意选取一个对象,通过查看Map的Node内容,发现:

  1. key是一个异常类,具体是ResourceAccessException
  2. value是一个自动Long AtomicLong
  3. key这个异常的产生原因是:对http://localhost:9411/api/v2/spans这个地址的POST被拒绝

三、源码分析

使用MAT工具分析DUMP,已经得出了很多信息,甚至已经知道问题原因。但是还需要进一步分析源码,详细了解问题的产生,以及解决方法。

1)InMemoryReporterMetrics

通过MAT分析得出的大对象引用关系,查看类InMemoryReporterMetrics:

private final ConcurrentHashMap<Throwable, AtomicLong> messagesDropped =
      new ConcurrentHashMap<Throwable, AtomicLong>();

messagesDropped是一个key 为Throwable,value为AtomicLongConcurrentHashMap

InMemoryReporterMetrics,看名字,它是一个内存报告度量。具体对是sleuth发送到zipkin服务器的所有消息的一个统计,包括发送成功的消息,发送失败的消息。注意这个统计信息是存在内存里的。
而这个度量中的messagesDropped就是存储发送异常的消息,key是具体异常信息,value是出现次数。

那么推断如果发送zipkin异常不断产生,那么messagesDropped的不断堆积,势必会造成OOM。

2)AsyncReporter

从引用关系上来看,InMemoryReporterMetrics是由AsyncReporter.BoundedAsyncReporter中的属性metrics引用的:

static final class BoundedAsyncReporter<S> extends AsyncReporter<S> {

final ReporterMetrics metrics;
}

在这个类的flush()方法中,有这样一段代码:

void flush(BufferNextMessage<S> bundler) {
     try {
        sender.sendSpans(nextMessage).execute();
      } catch (IOException | RuntimeException | Error t) {
            // In failure case, we increment messages and spans dropped.
            metrics.incrementMessagesDropped(t);
      }
}

可以看到,当sender发送消息到zipkin产生异常时,就会将异常实例本身,存入metricsmessagesDropped中。

AsyncReporter类使用了build模式,来创建异步报告者(AsyncReporter),而这个异步报告者的具体类,就是AsyncReporter的内部类BoundedAsyncReporter

AsyncReporter.Builderbuilder()方法中,启动了一个线程,在一个while循环中,不断将消息队列中的消息flush到zipkin。这就是异步reporter的由来。

3)zipkin自动配置

SpringBoot的自动配置,其实就是根据相关必须条件,将具备各种功能的bean注入到spring上下文中。zipkin的自动配置也不例外:

自动配置类ZipkinAutoConfiguration创建异步报告者的方法如下:

@Bean
@ConditionalOnMissingBean
public Reporter<Span> reporter(
        ReporterMetrics reporterMetrics,
        ZipkinProperties zipkin,
        Sender sender,
        BytesEncoder<Span> spanBytesEncoder
) {
    return AsyncReporter.builder(sender)
            .queuedMaxSpans(1000) // historical constraint. Note: AsyncReporter supports memory bounds
            .messageTimeout(zipkin.getMessageTimeout(), TimeUnit.SECONDS)
            .metrics(reporterMetrics)
            .build(spanBytesEncoder);
}

这个类中,还创建了发送到zipkin所需的sender,以及我们的关注点ReporterMetrics

@Bean
@ConditionalOnMissingBean
ReporterMetrics sleuthReporterMetrics() {
    return new InMemoryReporterMetrics(); 
}

四、问题原因

服务在开发测试时,使用了zipkin的调用链追踪。但是投产时,由于某些原因,无法使用zipkin,于是将zipkin的相关配置注释掉了。

因此服务有zipkin的依赖:

<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-zipkin</artifactId>
</dependency>

但是没有zipkin的配置:

# 调用链
#  zipkin:
#    base-url: http://172.20.6.23:9412
#  sleuth:
#    sampler:
#      probability: 1.0 # 采样率, 默认为0.1, 采样10%的请求

通过观察zipkin的自动配置类ZipkinAutoConfiguration

@EnableConfigurationProperties({ZipkinProperties.class, SamplerProperties.class})
@ConditionalOnProperty(value = "spring.zipkin.enabled", matchIfMissing = true)
public class ZipkinAutoConfiguration {
    @Bean
    @ConditionalOnMissingBean
    public Reporter<Span> reporter(
            ReporterMetrics reporterMetrics,
            ZipkinProperties zipkin,
            Sender sender,
            BytesEncoder<Span> spanBytesEncoder
    ) {
        return AsyncReporter.builder(sender)
                .queuedMaxSpans(1000) // historical constraint. Note: AsyncReporter supports memory bounds
                .messageTimeout(zipkin.getMessageTimeout(), TimeUnit.SECONDS)
                .metrics(reporterMetrics)
                .build(spanBytesEncoder);
    }
}

即使没有任何zipkin的配置,都会创建一个异步报告者,默认的采样率是:

private float probability = 0.1f;

所以即使不配置相关配置项,也会以默认采样率10%,发送到zipkin,这是默认的地址是:

@ConfigurationProperties("spring.zipkin")
public class ZipkinProperties {
    /**
     *  URL of the zipkin query server instance. You can also provide
     *  the service id of the Zipkin server if Zipkin's registered in
     *  service discovery (e.g. http://zipkinserver/)
     */
    private String baseUrl = "http://localhost:9411/";
}

此时发送到localhost显然会连接拒绝。导致度量中的异常实例堆积,从而OOM。

五、问题解决

通过MAT分析和源码分析,可以容易得到问题原因是zipkin地址的问题,那么把地址配置正确应该就可以解决问题。

更深层次的问题

通过分析得出,其实随异步发送者创建的InMemoryReporterMetrics是有缺陷的;
因为若由于一些不可预知的原因导致发送zipkin产生异常,那么这个异常信息会存放到内存度量中(InMemoryReporterMetrics),而且又没有机制去删除。若不断堆积,还是会产生OOM。

这一点,不知道是不是zipkin的设计缺陷。

解决办法

同事提出可以创建一个空的度量,来替换原来的内存度量:

@Bean
public ReporterMetrics metrics() {
    return new ReporterMetrics() {

        @Override
        public void incrementMessages() {
            
        }

        @Override
        public void incrementMessagesDropped(Throwable cause) {

        }

        @Override
        public void incrementSpans(int quantity) {

        }

        @Override
        public void incrementSpanBytes(int quantity) {

        }

        @Override
        public void incrementMessageBytes(int quantity) {

        }

        @Override
        public void incrementSpansDropped(int quantity) {

        }

        @Override
        public void updateQueuedSpans(int update) {

        }

        @Override
        public void updateQueuedBytes(int update) {

        }
    };
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342