redis 字符串与字典实现

简单动态字符串（SDS）

内部实现

struct sdshdr {
  len int; // 所保存的字符串长度
  free int; // 未使用的字节长度
  char buf[]; // 字节数组，用于保存字符串
}

c 字符串通常是以空字符 '\0' 结尾，所以一个 SDS 的长度为： len + free + 1

与 c 字符串的区别

类型	c 字符串	SDS
获取字符串长度	O(N)	O(1)
是非 API 安全	存在缓冲区溢出风险	API 安全，无缓冲区溢出
是否二进制安全	非二进制安全	二进制安全
修改字符串导致内存分配	每次重新分配	N 次修改最多 N 次分配
是否兼容 <string.h> 标准库	完全兼容	部分兼容

获取字符串长度

c 字符串获取长度是逐个读取字符计算长度，时间复杂度为: O(N)
SDS 是通过 len 来获取字符串长度，时间复杂度为: O(1)

API 安全

c 字符串不会检查内存空间是否足够，当拼接字符串时，有可能会出现缓冲区溢出问题
SDS 则会根据 free 来判断空间是否足够，如果内存空间不足，则会申请内存空间，因此不会有缓冲区溢出问题

二进制安全

c 字符串是根据空字符 \0 来判断字符串是否结束，因此字符串中间不能有空字符，只能用来保存文本内容，无法保存二进制数据
SDS 是通过 len 来判断字符串是否结束，因此既可以保存文本内容，又可以保存二进制数据

内存分配

c 字符串每次修改内容时都需要进行重新的内存分配
SDS 则是根据 free 判断空间是否足够，如果不足，重新内配，并且当修改后的 len < 1M 时，额外多分配 len 的长度，此时 free = len ；当缩短 SDS 字符串内容时，并不会立即释放空间, 而是通过将 free 变大，记录剩余空间，以减少之后的再分配。（通过惰性释放避免内存浪费问题）

字典

内部实现

typedef struct dictEntry {
    void *key;
    union {
        void *val;
        uint64_t u64;
        int64_t s64;
        double d;
    } v;
    struct dictEntry *next;
} dictEntry;

typedef struct dictType {
    unsigned int (*hashFunction)(const void *key);
    void *(*keyDup)(void *privdata, const void *key);
    void *(*valDup)(void *privdata, const void *obj);
    int (*keyCompare)(void *privdata, const void *key1, const void *key2);
    void (*keyDestructor)(void *privdata, void *key);
    void (*valDestructor)(void *privdata, void *obj);
} dictType;

/* This is our hash table structure. Every dictionary has two of this as we
 * implement incremental rehashing, for the old to the new table. */
typedef struct dictht {
    dictEntry **table;
    unsigned long size;
    unsigned long sizemask;
    unsigned long used;
} dictht;

typedef struct dict {
    dictType *type;
    void *privdata;
    dictht ht[2];
    long rehashidx; /* rehashing not in progress if rehashidx == -1 */
    int iterators; /* number of iterators currently running */
} dict;

结构示意图：

redis-dict

原理讲解

字段

ht 字段

ht 是一个两个项的数组，其中 ht[0] 用于存放哈希表，ht[1] 在哈希重排时使用

rehashidx 字段

当 rehashidx == -1 时，表示当前不是在 rehash, 用于表示在进行 rehash 操作时，进行到了哪一步。

如何操作数据

假设现在需要添加一个数据 <k, v>, 先需要计算哈希值:

hash = dict->type->hashFunction(k);

然后根据 sizemask 求出索引值:

 index = hash & dict->ht[x]->sizemask;   
 // x 表示实际存放哈希表的索引， 一般为 0 ，当在进行 rehash 时为 1

这样就可以将 <k, v> 存储在 dict->ht[x]->table[index] 中，如果 table[index] 中已经有数据，则新添加的数据放在链表表头. (这是因为 table[index] 中的链表时一个单链表，没有指向链表尾部的指针，添加到表头更快)

rehash 过程

当哈希表保存的数据太多或太少时，需要对哈希表进行相应的扩容或者收缩。
如果进行扩容操作，那么 ht[1] 的大小为第一个不小于 ht[0].used * 2 的 2^n (n 为正整数)，如: used = 5, ht[0].used * 2 = 10 < 2^4 = 16, 所以 ht[1] 的大小为：16 ·
然后就可以将 ht[0] 的数据哈希到 ht[1] 中，当 ht[0] 中的数据全部哈希到 ht[1] 后，释放 ht[0], 将 ht[1] 变 ht[0]

扩展的触发条件

在没有执行 BGSAVE 或 BGREWRITEAOF时，哈希表的负载因子 >= 1
在执行 BGSAVE 或 BGREWRITEAOF时，哈希表的负载因子 >= 5

负载因子的计算：

load_factor = ht[0].used / ht[0].size

在进行 BGSAVE 或 BGREWRITEAOF时，提高负载因子是为了避免扩容，避免不必要的内存写入

收缩的触发条件

负载因子 < 0.1

渐进式哈希

在扩容或者收缩时，需要将 ht[0] 全部哈希到 ht[1], 如果一次性哈希，当数据足够多时，会存在效率问题。因此 redis 通过逐步哈希的方式，其具体过程如下：

为 ht[1] 分配空间
设置 rehashidx = 0
新添加的数据不再加入到 ht[0], 而是加入到 ht[1]中，保证 ht[0]不会增加数据
将 ht[0]->table[rehashidx] 的数据全部哈希到 ht[1] 中
rehashidx++
随着不断的执行，ht[0] 的数据哈希到了 ht[1], 这是可以设置 rehashidx = 1，表明 rehash 结束，释放 ht[0], ht[1] 设置为 ht[0]

在 rehash 的过程中，删除，查找，更新会同时在 ht[0], ht[1] 中进行，但是添加只会在 ht[1] 中。

最后编辑于：2017.12.10 06:48:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

redis 字符串与字典实现

简单动态字符串 （SDS）

内部实现

与 c 字符串的区别

获取字符串长度

API 安全

二进制安全

内存分配

字典

内部实现

原理讲解

字段

ht 字段

rehashidx 字段

如何操作数据

rehash 过程

扩展的触发条件

收缩的触发条件

渐进式哈希

推荐阅读更多精彩内容

简单动态字符串（SDS）