HDFS-RAID模块源码解析

友情提醒：如果有对文件系统编码不太了解的朋友，可以先去了解下存储编码，其实很简单的就跟我们小学学的列方程、解方程相似。当然了特别复杂的编码就涉及到很深的数学知识了，我们此处不聊数学~~

HDFS-Raid作为Facebook在Hadoop内部实现的一个子模块，提供了DRFS(Distributed Raid File System)，即分布式Raid文件系统作为DFS的具体实现，为文件在Raid中具体使用的文件系统。

DRFS中原文件被分成由几个Blocks组成的Stripes组成，Stripe中Block数量称为stripeLength，stripeLength可通过配置文件经JSON(JavaScript Object Notation)对象具体配置，每个Stripe可编码成由几个Blocks组成的校验文件(parity file)，存储在具体的校验文件里，一个Stripe编码后对应校验文件Block数量称为parityLength。这样，当原文件Block损坏或丢失时，可通过一定数量的未损坏原文件Blocks和校验文件Blocks进行修复，保证了数据的可靠性。所以对原文件编码后，可将原文件的备份数减少(如将默认的3份备份数减少到2份备份数)，这样，总的存储量得到减少。

目前Raid中已实现的编码方式有XOR和RS两种。其中XOR编码stripeLength可通过配置文件具体配置，parityLength只能为1。RS编码stripeLength和parityLength都可通过配置文件具体配置。RS编码的操作基于有限域，需满足stripeLength和parityLength的和小于所选有限域大小。

对DRFS中存储的原文件进行编码操作(Raid操作)，主要有两种方式。一种是通过Shell工具RaidShell手动对特定文件或目录进行Raid操作，这种方式相对来说不是很系统化，但可以用于测试。另一种是启动RaidNode节点后，由RaidNode节点启动的相关线程如TriggerMonitor自动对相应文件进行Raid操作。TriggerMonitor定期刷新配置信息，对配置策略下需要Raid的文件进行Raid。当检测到Block损坏或丢失时，同样通过相关线程如BlockFixer进行Block修复。这种方式是比较系统的Raid方式，不管是对文件的Raid操作还是修复都是通过相关线程自动进行，无需人工干预，操作者可通过Web界面或日志文件查看状态。

RaidShell作为一个Shell工具，允许管理员查看并维护DRFS的基本状态。通过RaidShell，管理员可以查看某一文件的Block状态(通过执行fsck命令)，或者对某一文件或目录进行Raid操作(通过执行raidFile命令)，可指定Parity文件存放目录，或者对某一文件的损坏Block进行修复(通过执行recoverBlocks命令)等等，实现对DRFS中文件的手工管理。

RaidNode作为Hadoop中除NameNode和DataNode外的第三个master node，主要是接收Client端的RPC请求和调度各守护线程完成数据的Raid化和数据修复，parity文件删除等操作。在Facebook-Raid中有两种实现：LocalRaidNode和DistRaidNode，即本地RaidNode实现和分布式RaidNode实现。其中LocalRaidNode在RaidNode本地进行parity计算，parity文件的生成是一个计算密集型任务，而本地计算能力有限，因此该方式的扩展性有限。而DistRaidNode通过提交mapreduce job来进行parity计算，充分利用了Hadoop的并行计算能力，最大化计算效率。RaidNode中有main函数，根据配置文件生成local或者dist对象，函数中开启以下的线程：

1.TriggerMonitor，周期性检查配置信息，根据配置文件配置的需Raid的文件路径，对所在路径的文件进行Raid操作。Raid化的调度周期主要收两个配置的影响，raid.config.reload.interval(加载raid-policy的周期，默认10s)和raid.policy.rescan.interval（扫描需要Raid化的原文件的间隔，默认1小时）。这样，当新增了一个配置policy时，默认10s内该policy会被加载执行。而在一个已经Raid化的目录中新增了一个文件时，该文件将在1个小时内被Raid话。(配置policy传入需Raid文件的基本参数，如需Raid文件的路径，Raid后的备份数等)

2.BlockIntegrityMonitor，对已Raid化的文件进行周期性检查，检查内容包括corrupt(损坏)和decomssion(丢失)，当检测到有Block损坏或丢失时，通过其维护的CorruptMonitor和DecommsionMonitor两个线程进行修复。BlockIntegrityMonitor对应有两个实现：LocalBlockIntegrityMonitor和DistBlockIntegrityMonitor，即本地实现和分布式实现。

3.BlockFixer，为BlockIntegrityMonitor构建的用于修复损坏(corrupt)文件的线程。

4.BlockCopier，为BlockIntegrityMonitor构建的用于修复丢失(decommsion)文件的线程。

5.PurgeThread，封装了PurgeMonitor，定期扫描已经Raid文件的校验文件(parity file)，判断是否有孤儿Parity文件，所谓的孤儿Parity文件是指原文件已经不存在的Parity文件，若有，则删除孤儿Parity文件。

6.HarThread，封装了HarMonitor，定期对超期的Parity文件进行归档处理，将超期的Parity文件归档成大容量的Har文件，超期时间由raid.parity.har.threshold.days指定，默认是3天。

7.statsCollectorThread，封装了StatisticsCollector，当DRFS中文件状态变化时(Raid，丢失等)更新DRFS的统计数据。

说了这么多，是时候让大家见识一下raid是怎么做的编解码了

raid编码流程

TriggerMonitor就是我前文提及的RaidNode进程中一个周期扫描raid policy的线程，进行raid操作。Raidshell则是使用shell命令，本质是相同的。raid操作最后是通过Encode对块信息进行编码，Encoder中包含ErasureCode类型的对象，最后使用ErasureCode子类的encodeBulk进行编码，所以最后还是落实到最HDFS的基本单元”文件块“的编码。可能有读者会问编码的方案有很多种，采用那种呢？这是个好问题！raid里面有一个函数叫Codec.createErasureCode(conf)生成ErasureCode的子类对象，这样我们是不是就拿到了编码方案的描述信息了。

下面我们看下，raid是如何做到解码的。

Raid解码流程

解码流程是编码的逆向，raid解码方式主要是3种分别是shell的方式，启动本地修复线程，启动分布式修复线程。相比于编码，解码还要稍微复杂一些。因为解码的任务是要恢复损坏的块，所以在修复之前就要先判断下是原始文件坏了，还是校验文件坏了，还是归档文件坏了？接着分别执行不同的流程，流程的最后还是跟编码一样，是对文件块的解码操作。流程图的中的Decoder就相当于编码中的Encoder。

上述都是从架构的层面解析HDFS-RAID，偏向于设计理念。正所谓程序就是算法加数据，我们解释清楚raid最后是要操作的HDFS文件块，那么具体是怎么操作的呢？

在此之前我们先弄清楚编解码的一个基本模型—"Stripe"

编解码基本单元

一个文件有很多块，我们则是根据编解码的规则，觉得将多少块视为一组，也就是我们所说的"Stripe"。好，搞清楚这个我们就开始解释Encoder和Decoder是怎么做的。

Encoder流程

Encoder是一个负责生成parity文件的类，流程详解如下：

1.由于编码过程会比较长，所以先生成tmp文件。tmp文件的目录可以通过tmp_parity_dir配置，默认是tmp/$parity_dir

2.构建tmp文件path，tmp文件的path为tmp目录下parity文件path加上一个随机long值构成，$tmp_parity_dir/$parity_file+randomlong。

3.通过Erasued Code来进行编码到tmp文件

4.删除原有的parity文件

5.将tmp文件重命名为parity文件。

6.删除tmp文件。

Decoder这个修复数据的类则和Encoder有异曲同工之妙了。

Decoder流程

具体流程如下：

1.根据文件中出错的位置，计算出错的block，该block所在的stripe，以及在stripe中的位置，计算parity文件相应block的位置。

2.通过ParallelStreamReader读取源block数据和parity数据，读取方式与编码时类似

3.通过Erasured Code将源block和parity数据的进行解码，生成丢失的block数据。

到此，HDFS-RAID的模块流程基本已经解释清楚了。facebook已经实现了RS和XOR编码并且投入了生产当中，并且于Hadoop3.0正式加入了这项编解码功能，其定义ErasureCode类也是考虑到这个模块的扩展性，可以加入其他编码。当然也不是所有的编码都能符合这种Stripe，也就是水平编码的模型，所以实现某种编码的时候最好先理解Hadoop提供的这种编码模型。而且MapRedude只是一种任务的负载均衡，无法用来解决各个节点解码任务不同的再生码。

至于为什么写这篇文章，主要因为国内讲解HDFS-RAID的文章不多，我和我的室友只能通过去看源码的方式去理解其中的流程，这其实是很费时费力的，所以在这个闲暇的时间总结了下之前的工作，希望能对搞存储编码的朋友有帮助。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

HDFS-RAID模块源码解析

推荐阅读更多精彩内容