Pulsar 5万Topic调优

前言

最近工作中在做一个场景的pulsar性能调优，解决了一些问题，分享给大家

业务场景

image-20201227145858630

其中producer，pulsar，consumer均为多实例，4U16G部署

虽然消息量不是很大，但主要topic数目大，还要让producer，pulsar，consumer协同工作好，架构无单点问题，无损升级，这是我们的主要挑战

问题列表

Pulsar客户端连接不上broker

刚刚把测试数据准备好，我们就碰到了第一个问题，pulsar客户端连接broker困难，测试无法进行。我们根据健康检查，curl命令排查出问题在pulsar的8080端口hang住，不给响应。

这里值得一提的是，我们使用了8080端口而不是6650端口连接broker，原因主要有两点:

8080的日志详细，而且大部分发向8080的请求都是元数据请求，在排查问题的时候比较关键，也容易监控。比如，创建topic失败，创建producer超时，这些事件在jetty的requestLog都能很容易地监控起来
数据请求和元数据请求可以隔离，避免在6650端口繁忙的时候，创建topic，删除topic等功能受到影响

然而8080端口效率相对6650性能差，默认的线程数不满足5w topic量级下，consumer，producer建立的请求数（每个consumer的建立都有partitions和lookup请求等），这里我们把jetty的线程数调大，解决了这个问题

生产消费时延大

然后，我们通过测试工具发现消息从生产者到消费者，整个端到端延迟较大。

这里我们为了定位问题方便，开发了单topic debug特性，在海量消息的场景下，无论是测试环境还是生产环境，都不敢轻易在broker开启全局debug。我们在自己的配置中心做了个配置，在配置上的topic，就会打印debug日志。

在单topic debug特性的配合下，我们很快发现消息的最大延迟出现在producer发送完消息，服务端接收到消息之间，由此推测到是netty的acceptor配置不够，调高后解决了部分问题。我们选用的版本，acceptor配置还是写死在代码里为1的。提交了PR，使之变为可配置https://github.com/apache/pulsar/pull/9061,也解决了创建生产消费者慢的问题

解决了这个问题后，我们就发现瓶颈出现在单个JVM实例上，启动5w个消费者存在很大的隐患，如内存不足，5w消费者下所需的业务线程调度导致延迟还是较大。我们决定对消费者进行分组，每个实例负责约1w个消费者，解决了生产消费时延大的问题。

创建生产消费者慢

调整netty参数配置后解决

升级呼损时间长

在测试pulsar升级的过程中，我们发现单topic不可用时间峰值竟达到过127秒，这几乎是不可接受的。随后排查发现，pulsar的优雅启停并没有执行完毕就退出了（注：pulsar的优雅启停，需要在zk上进行两次操作，我们也在实测中发现，pulsar升级过程中，zk的p99延迟会增加）随后我们调大了pulsar的优雅启停时间到180s。将单topic不可用时间控制在17s左右，再在生产者重试，保证无呼损。接下来还要继续优化这个数字。

ZooKeeper升级部分Pulsar重启

当前如果和ZooKeeper断链，pulsar就会重启，重连目前还是beta配置。当zooKeeper升级的过程中，zookeeper客户端和zookeeper服务器重连是依次重连的，间隔为1s内随机，并且每次轮完一圈后会等待1s（注：我们采用静态ZooKeeper配置，并且用域名访问，Ex: ZooKeeper-0.zookeeper:2181,ZooKeeper-1.zookeeper:2181,ZooKeeper-2.zookeeper:2181)。我们升级zookeeper的时候，重新选主大概需要0~2s。

默认的pulsar超时时间是5s，本来就算是最差的场景，以zookeeper-0升级举例: zookeeper-0=>zookeeper-1=>zookeeper-2=>sleep1s=>zookeeper-0，这样子大概4秒也是能连上来的，但是因为我们配置的域名，jvm刷新域名不及时，导致第二次重连zookeeper-0也失败了。

解决方案：把jvm的dns超时配置成5s，并且把zookeeper的session超时配成15s

健康检查波动

Pulsar自带的健康检查脚本，需要拉起一个jvm运行，在1U的场景下会造成较大的cpu波动，4U的场景下也有较大影响。我们本来就就在容器内除了pulsar进程，还拉起了一个进程，负责对接我们的告警，kpi系统等，让这个进程负责健康检查的工作（也是生产消费pulsar）避免了每次都动态拉起jvm，降低了cpu的波动

Recycled Already

image-20201227152004304

这个问题比较简单，使用了TypedMessageBuilder进行重试，，提醒小伙伴们不要使用TypedMessageBuilder进行重试

普罗指标裁剪

50ktopic数量大，指标多，都进行采集，会导致我们的普罗占用资源非常大，我们根据自己的业务特点，比如每条消息大小都差不多，裁剪掉了storageSize的相关指标，忍痛裁掉了每个ml的指标，认为topic级别的监控+全局监控+bk监控足以网上运维。将普罗的占用资源控制在了8U32G。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343