FlatStore: An Efficient Log-Structured Key-Value Storage Engine for Persistent Memory

ASPLOS'20

Youmin Chen♭†, Youyou Lu♭†, Fan Yang♭†, Qing Wang♭†, Yang Wang‡, Jiwu Shu♭†∗
Department of Computer Science and Technology, Tsinghua University♭Beijing National Research Center for Information Science and Technology (BNRist)†The Ohio State University‡

本文是清华大学舒继武团队发表在ASPLOS 2020上的一篇文章,主要内容是针对当前小KV+write intensive的workload以及基于最新的Intel Optane DC / Infiniband设计一个KV Store。这个KV Store采用的是NVM Log Structure + 内存索引的结构,数据先写入NVM Op log,再更新内存索引。其中NVM log structure针对Optane DC的特性设计了Compacted Oplog以及Lazy-Persisted Allocator,并提出Pipelined Horizontal Batch技术优化了batch写入的过程。

背景

Workload的特征

现有的各种生产环境的workload中,小KV占比越来越多,文中指出Facebook ETC Memcached pool中40%的item都小于13B,70%的item都小于300B。另一个特征是workload从read-intensive逐渐变成write-intensive,对KV Store也要求能够处理write-intensive的workload。

现有的索引结构的写放大问题

现有的各种索引结构都会造成写放大,比如对于树结构,shift / split / merge都会对数据进行额外的读写,对于哈希,搬动item以及resize同理。而这些数据结构再NVM上之后,一次put可能造成多次的NVM写造成写放大:1)更新kv数据;2)更新allocator数据;3)对index结构的更新。

Optane DC Persistent Memory

CPU Cache line的粒度为64B,但是Optane DC的写粒度是256B,如果只flush一个cache line则造成了Optane带宽的浪费,文中对FAST&FAIR进行了测试,(a)图显示,Optane裸盘的带宽是FAST&FAIR带宽的17倍,背后的原因就是FAST&FAIR产生大量的小写,是对带宽的浪费。

Optane DC

本文还提出了两点Optane DC的特性:

1) 在高并发下,随机顺序访问性能接近

测试结果可以看图(b),Optane的随机顺序写带宽随着线程数增加,其性能逐渐接近,主要原因是在高并发的情况下,顺序写基本也就算是随机写了。

2) 对同一个cache line的重复flush会被延迟

测试结果如图(c),其中in-place update是对同一个cache line的就地更新,其延迟相比另外两种情况有很大的增加。文中猜测其原因可能有两个方面,一是clwb是异步执行,后面的clwb需要等前面的执行完;二是可能受Optane内部的磨损均衡管理的影响。

现有的Log Structure的问题

上面提到的index的问题,一个直观的解决办法就是使用日志结构。但是在NVM上使用日志结构仍存在一些挑战:

1)NVM的写粒度限制了batch的大小

一般来说采用日志结构都会将entry通过batch的方式,将多个entry组合成存储设备的写粒度然后再写下去,这在传统的块设备上使用较多。但是NVM的写粒度只有256B大小,这样能batch的entry数目就受到了限制。而如果batch太大,在多线程下就没有顺序写优势了,还不如不batch。同时日志结构对空间管理也需要额外的元数据,这也增加了需要写NVM的次数。

2)batch会增加写延迟

日志结构需要先等待请求达到batch数目之后才写下去,等待的过程无疑也是增加延迟,尤其是在现在采用NVM以及高速NIC的情况下,更多系统采用的是polling + 每个核单独处理各自请求的情况下,每个核需要达到batch数目的请求需要更多的等待时间。

设计

Overview

Overall

针对上面提到的各种问题,本文希望构建一个最小化写开销、低延迟以及多核扩展的KV Store,于是提出了FlashStore。总体结构上FlashStore分成了内存中的volatile index和PM上的op log,这个结构倒没有多大的创新,本文的重点也在PM的log的设计上,主要提出了Compacted OpLog,Lazy-persist Allocator以及Pipelined Horizontal Batch这三项主要技术。内存中的结构分成了两种实现,分别用了哈希表和B+树(MassTree)结构。

对于Update操作,FlashStore将操作以entry的形式存储到OpLog中,其中小KV和元数据直接存储到log中,大KV则单独通过allocator存,最后更新内存索引。读操作则直接从内存索引中获取对应kv的位置。

Compacted OpLog

目的:尽量减小log entry的大小,让一次batch能处理更多的请求

设计

Compacted log entry

OpLog中每个entry为一次更新操作,各个域的含义为:

1)Op:操作类型,2bit

2)Emd:标示KV的存储位置,2bit

3)Version:更新的不同版本的数据,用于协助log clean,20bit

4)key:FlashStore目前支持8字节的inline key,也可以通过out-of-place的方式支持更长的key

5)value / ptr:对于小于256B的value直接存储到log entry,否则通过lazy-persist allocator存储而此处只记录ptr

Padding:采用batch的时候,不可能总是刚好能够让batch跟cache line对齐,比如下面这种情况:

cache line align

这个时候flush玩Batch1就可能会导致Batch2的flush被延迟(背景里面提到的Optane的特性之一),所以为了解决这个问题,FlashStore会在log后面添加padding,使得batch能够cache line对齐。

Lazy Persisted Allocator

背景与原理:一般来说allocator内部都需要维护一些元数据来记录空间分配的情况,比如bitmap等,在数据分配之后,需要更新这些元数据结构,带来写NVM的开销。本文观察到,在数据被写入并记录到log之后,ptr就已经记录了value的位置,这就已经足够作为allocator的元数据,因此allocator中的元数据就不必要立刻flush,就算此时crash了,也可以通过ptr中记录的数据进行恢复,也就是lazy-persist

Allocator设计

整个NVM空间分成4MB大小的chunk,chunk内分成大小相同的data block,data block有不同的粒度,chunk头部会记录当前chunk的block大小以及一个记录分配情况的bitmap。

分配的时候选择最合适的block进行分配,然后更新bitmap,此次更新不进行flush。

恢复的时候可以通过ptr中记录的offset记录data block所在的chunk,以此来恢复chunk的bitmap。

基本操作

Put

1)在allocator中分配空间,写入数据并持久化(只有大KV执行这一步

2)更新log,并更新log的tail pointer

3)更新内存索引

对于update操作,采用的是out-of-place更新的方法,同时FlashStore中key按照key的hash交给不同的核处理,因此不存在read-after-delete的问题,所以旧数据的占用空间可以立刻被回收。

这样一次put只会执行3次flush,如果是小kv则是2次。

Pipelined Horizontal Batch

batch

Vertical Batch

通过batch可以更进一步减少flush的次数,提升Optane的带宽利用率,对于一个N条put的batch,flush次数从3N减少到了N+2次,如上图中的(a)和(b)。

Vertical Batch是指每个core只batch自己core上的数据的方式,这种方式的缺点是需要等待足够数量的log才能提交,因此增加了延迟,如上图中的(b)。

Horizontal Batch

为了优化这种情况,FlashStore首先提出了Horizontal Batch的方式,核心思想就是core在构造batch的时候可以将其他core的entry“偷取”过来,减少等待的时间。将put操作分成3个阶段:1)l-persist:空间分配以及持久化KV;2)g-persist:persist log entry;3)volatile:更新内存索引。


Horizontal Batch

Horizontal Batch的具体步骤

  1. 各个core完成l-persisit阶段;
  2. 将待持久化的log entry的地址写到自己的request-pool中;
  3. 尝试获取global lock;
  4. 成功获取global lock的core成为leader,leader从其他core(follower)的pool中获取log entry;
  5. 释放global lock,通知其他核持久化完成;
  6. 同时更新内存索引;

具体过程可以如上图(c)

这种Batch策略有一个缺点就是,当leader在处理请求的时候,其他核什么也干不了,浪费了CPU cycle,所以为了解决这个问题,本文更进一步提出了Pipelined Horizontal Batch。

Pipelined Horizontal Batch

核心思想:leader core处理log的时候,其他的core立刻继续去poll请求,仅异步地等待leader core完成log持久化的通知。

可能存在的问题:紧接着一个正在被leader处理的put后面的get请求会失败。

解决:维护一个conflict queue,存在冲突的key的请求会进行排队。

可能存在的问题:multi-socket下只用一个global lock的开销较大。

解决:将server core分组,每个组单独执行各自的pipeline,目前比较优化的配置是每个socket一个锁。

其他的还有空间回收和恢复,空间回收是通过每个core发起一个单独的回收线程进行,将有效数据读出来并搬到新的chunk。恢复分成两种情况,正常退出的时候会将内存索引也写到NVM,然后将allocator的元数据都flush一次并设置一个正常退出的flag。意外退出则需要遍历数据来恢复。

最后的测试结果也是比LevelHash / CCEH / FAST&FAIR & FPTree都要高很多,而且从测试结果来看pipelined HB对性能提升还是很大的

Performance of Hash
Performance of Tree
Benifit of each optimization
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,482评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,377评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,762评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,273评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,289评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,046评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,351评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,988评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,476评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,948评论 2 324
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,064评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,712评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,261评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,264评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,486评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,511评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,802评论 2 345

推荐阅读更多精彩内容