Raft算法

前言

Raft算法是解决分布式系统共识的问题的算法,Raft是基于Multi-Paxos的基础上做了简化和限制。不同于Paxos的难以理解,Raft设计的首要目的就是可理解性,一个易于理解、实现简单的分布式一致性协议。
Raft 将一致性算法分解成了几个关键模块,例如领导人选举、日志复制和安全性,本文将主要基于raft论文简单分析raft算法。

领导选举

Raft是强领导(Strong leader)模型,一切以leader为主,比如日志只能由leader复制到其他服务器。所以leader的选举是非常重要的一部分。
首先介绍raft算法的三个服务状态:

  • Leader:处理客户端请求、向集群其他服务发送心跳、日志复制管理。
  • Follower:接受leader的信息,当于leader心跳超时,转换为候选者(candidate)。
  • Candidate:候选人将向其他节点发送请求投票消息,通知其他节点来投票,如果赢得了大多数选票,就晋升当领导者。

任意时间集群中只能由一个leader存在。

Raft使用心跳机制实现leader选举。在服务启动的时候,处于follower角色,需要注意的是每个服务于leader的心跳超时的时间是随机的(150-300 毫秒)。


服务启动

如上图,集群中有三个几点A、B、C,超时时间分别为150ms、200ms、300ms刚启动时任期编号都是0,都处于follower角色。节点A与leader的心跳超时时间最短,最先从follower状态转为candidate,并增加自己的任期编号,先给自己投上一张选票,并向集群中其他节点发送投票信息,当B、C节点接受到A的投票请求之后,在任期为1的这个阶段没有给其他节点投过票,便接受A的投票请求。此时节点A接受到了集群中超过一半的节点的投票,便成为任期为1的leader。

上诉是最简单的选举流程,里面有很多概念都需要解释,比如为什么超时时间不一样?任期编号是什么?投票比较的规则又是什么?
1. 任期编号
每个leader在当选期间都有一个自己的任期编号,它是全局单调递增的数字。每个节点都存储这当前的leader的任期编号,当处于candidate阶段的时候,发起投票的时候会把当前任期编号加一。
而且当一个节点接受到比自己任期高的请求时,会将自己的任期编号更新为高的任期编号,如果当前角色是leader,会从leader转换为follower角色。当接受到任期编号比自己小的请求时,节点会直接拒绝这个请求。

2. 投票比较规则
a. 先到先服务:一个节点在一个任期只能投一票,如果A、B节点都请求C节点投票,C节点如果先投给A之后、就会拒绝B的投票请求。
b.日志完整性:一个节点接受的投票信息如果它的日志比自身小,将会拒绝该投票请求。
c.过半策略:当某节点接受到了集群中超过一半的节点投票之后,成为该次任期的leader,向其他节点发送leader心跳。
d. 在等待投票期间,candidate 可能会收到另一个声称自己是 leader 的服务器节点发来的 AppendEntries RPC 。如果这个 leader 的任期号(包含在RPC中)不小于 candidate 当前的任期号,那么 candidate 会承认该 leader 的合法地位并回到 follower 状态。

3.随机超时
前面提高过,每个几点与leader的心跳超时时间是不同的,这样的好处在于避免瓜分票数的情况存在,能快速的进行leader选举。如果各个节点的超时时间都是一样的,就容易出现瓜分票数的情况存在,每个节点都没有获得超过一半的投票,就会开启下一轮的选举,选举时间就会很长。使用随机超时机制,正常情况下,一个时间段里只有一个节点发起投票请求。

下图是整个集群中服务角色变化的流程图。


状态转换

日志复制

Leader选举出来之后为客户端提供服务,将接受到的指令作为一个新的日志项追加到日志中去,然后并行的发起 AppendEntries RPC 给其他的服务器,让它们复制该日志项。当该日志项被安全地复制(过半的节点已复制完成),leader 会应用该日志项到它的状态机中(状态机执行该指令)然后把执行的结果返回给客户端。如果 follower 崩溃或者运行缓慢,或者网络丢包,领导人会不断地重试 AppendEntries RPC(即使已经回复了客户端)直到所有的 follower 最终都存储了所有的日志。

什么是日志

日志

上图展示了日志的格式,一个日志项包含三部分

  • 索引(index):日志项对应的整数索引值。它其实就是用来标识日志项的,是一个连续的、单调递增的整数号码。
  • 指令:一条由客户端请求指定的、状态机需要执行的指令。
  • 任期编号:创建这条日志项的领导者的任期编号。

复制

Leader通过 AppendEntries RPC 将日志复制到其他节点。

AppendEntries RPC:

参数 解释
term 领导人的任期号
leaderId 领导人的 Id,以便于跟随者重定向请求
prevLogIndex 新的日志条目紧随之前的索引值
prevLogTerm prevLogIndex 条目的任期号
entries[] 准备存储的日志条目(表示心跳时为空;一次性发送多个是为了提高效率)
leaderCommit 领导人已经提交的日志的索引值
返回值 解释
term 前的任期号,用于领导人去更新自己
success 跟随者包含了匹配上 prevLogIndex 和 prevLogTerm 的日志时为真

接收者实现:

  • 如果 term < currentTerm 就返回 false
  • 如果日志在 prevLogIndex 位置处的日志条目的任期号和 prevLogTerm 不匹配,则返回 false
  • 如果已经存在的日志条目和新的产生冲突(索引值相同但是任期号不同),删除这一条和之后所有的
  • 附加日志中尚未存在的任何新条目
  • 如果 leaderCommit > commitIndex,令 commitIndex 等于 leaderCommit 和 新日志条目索引值中较小的一个

上诉是AppendEntries RPC的参数的接受流程。term与leaderId不用介绍很简单,而prevLogIndex、prevLogTerm的作用是日志的一致性检测,如果 follower 在它的日志中找不到包含相同索引位置和任期号的条目,那么他就会拒绝该新的日志条目。一致性检查就像一个归纳步骤:一开始空的日志状态肯定是满足 Log Matching Property(日志匹配特性) 的,然后一致性检查保证了日志扩展时的日志匹配特性。因此,每当 AppendEntries RPC 返回成功时,leader 就知道 follower 的日志一定和自己相同(从第一个日志条目到最新条目)。

正常操作期间,leader 和 follower 的日志保持一致,所以 AppendEntries RPC 的一致性检查从来不会失败。然而,leader 崩溃的情况会使日志处于不一致的状态(老的 leader 可能还没有完全复制它日志里的所有条目)。如下情况:


image.png

在 Raft 算法中,leader 通过强制 follower 复制它的日志来解决不一致的问题。这意味着 follower 中跟 leader 冲突的日志条目会被 leader 的日志条目覆盖。

Leader 针对每一个 follower 都维护了一个 nextIndex ,表示 leader 要发送给 follower 的下一个日志条目的索引。当选出一个新 leader 时,该 leader 将所有 nextIndex 的值都初始化为自己最后一个日志条目的 index 加1。如果 follower 的日志和 leader 的不一致,那么下一次 AppendEntries RPC 中的一致性检查就会失败。在被 follower 拒绝之后,leaer 就会减小 nextIndex 值并重试 AppendEntries RPC 。最终 nextIndex 会在某个位置使得 leader 和 follower 的日志达成一致。此时,AppendEntries RPC 就会成功,将 follower 中跟 leader 冲突的日志条目全部删除然后追加 leader 中的日志条目(如果有需要追加的日志条目的话)。一旦 AppendEntries RPC 成功,follower 的日志就和 leader 一致,并且在该任期接下来的时间里保持一致。

总结

本机简单介绍了raft 的leader选举和日志复制,当然raft还有其他的特性本文并没有介绍,推荐去看raft的论文,完整的了解raft。
我之前ZAB协议的文章分析了zookeeper的zab协议,这里对比一下两者的异同。

  1. 两者都是强领导模型,由领导接受处理请求、复制日志。
  2. leader选举,两者都需要获取过半节点的投票才能选举出leader,raft采用随机超时和先到先服务的策略,相比zab协议会尽快选举出leader。
  3. 日志复制,在服务正常运行期间两者的日志复制没什么区别,都是由leader复制和过半节点确认提交日志。但是从leader崩溃到选举出新的leader,zab需要经过DISCOVERY和SYNCHRONIZATION两个阶段,来确认自己的leader地位和保持其他节点与leader的日志一致,才能对外提供服务。而raft选举完成之后就能对外提供服务,通过心跳和日志复制来完成leader的确认和日志的一致性。

最后https://raft.github.io这个网址详细介绍了raft协议。

参考

https://time.geekbang.org/column/intro/279
https://raft.github.io/
https://github.com/maemual/raft-zh_cn/blob/master/raft-zh_cn.md

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343