Tuning RocksDB - Write Stalls

RocksDB 使用 LSM 的方式用来提升写入的性能，但如果写入过快，超过了 RocksDB 处理的极限，RocksDB 就会考虑对写入进行降速处理。这个在 TiKV 调优的时候遇到过很多次，当我们持续大量插入数据的时候，会发现到了某一个时间，性能就突然下降了，如果突然出现了这样的情况，我们都会从 LOG 文件里或者 statistics 上面来确认是否出现了 write stall。

Where Stall

通常 write stall 会在几个地方出现

Too many memtables

当需要等待被 flush 到 level 0 的 memtable 到了或者超过了 max_write_buffer_number，RocksDB 就会完全 stop 写入，直到 flush 结束。同时，当 max_write_buffer_number 大于等于 3，需要 flush 的 memtable 数量已经大于等于 max_writer_buffer_number - 1 的时候，RocksDB 就会 stall 写入。我们可以在 LOG 里面看到如下的信息：

Stopping writes because we have 5 immutable memtables (waiting for flush), max_write_buffer_number is set to 5

Stalling writes because we have 4 immutable memtables (waiting for flush), max_write_buffer_number is set to 5

Too many level-0 SST files

当 level 0 的 SST file 的数量达到 level0_slowdown_writes_tigger 的时候，RocksDB 就会 stall 写入。当 level 0 的 SST file 的数量达到 level0_stop_writes_trigger 的时候，RocksDB 就会 stop 写入，直到 level 0 到 level 1 之间的 compaction 完成，level 0 SST file 的数量减少之后。我们可以在 LOG 里面看到如下的信息：

Stalling writes because we have 4 level-0 files

Stopping writes because we have 20 level-0 files

Too many pending compaction bytes

当预计的 compaction 数据的大小达到了 sofe_pending_compaction_bytes 之后，RocksDB 会 stall 写入。当达到了 hard_pending_compaction_bytes 之后，则会 stop 写入。我们可以在 LOG 里面看到如下的信息：

Stalling writes because of estimated pending compaction bytes 500000000

Stopping writes because of estimated pending compaction bytes 1000000000

Mitigate Stall

需要注意的是，很多时候，受限于机器的性能，我们并不能杜绝 stall，只能通过配置尽量的改善。

当发生 stall 的时候，RocksDB 会降低写入的速度到 delayed_write_rate，甚至有可能比这个更低。另外需要注意的是 slowdown/stop trigger 或者 pending compaction limit 都是针对不同的 CF 的，但 stall 是针对整个 DB 的，如果程序里面有多个 CF，一个 CF 出现了 stall 的情况，整个 DB 都会 stall。

如果 stall 是因为 pending flush memtable 不及时导致的，我们可以尝试:

增大 max_background_flushes ，这样就能有更多的线程同时 flush memtable。
增大 max_write_buffer_number ，用更小的 memtable 来提升 flush 的速度。

如果 stall 是因为 level 0 或者 pending compaction 太多导致，我们就需要考虑提升 compaction 的速度。另外，也可以减小写放大，因为写放大越小，需要 compaction 的数据量就越小。所以我们可以尝试：

增大 max_background_compactions，用更多的线程来进行 compaction。
增大 write_buffer_size，这样就能有更大的 memtable，用来减少写放大
增加 min_write_buffer_number_to_merge，在 flush 之前先将 memtable merge，减少写入 key 的数量，但这样会影响从 memtable read 的性能。

小结

对于写性能要求非常高的系统来说，write stall 是一个绕不过去的坎，所以我们只能在不同的场景下面通过配置来在 write，read 和 space 这三个上面做平衡。所以需要更加深入的去理解 RocksDB 那一坨参数以及相关的含义。

最后编辑于：2017.12.06 05:09:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345