HDFS系列(1)-架构

1. 设计初衷

分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析。

2. 优缺点

2.1 优点

高容错性
1）数据自动保存多个副本。它通过增加副本的形式，提高容错性
2）某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制实现的，我们不必关心。
适合批处理
1）它是通过移动计算而不是移动数据
2）它会把数据位置暴露给计算框架。
适合大数据处理
1）处理数据达到 GB、TB、甚至PB级别的数据。
2）能够处理百万规模以上的文件数量，数量相当之大。
3）能够处理10K节点的规模
流式文件访问
1）一次写入，多次读取。文件一旦写入不能修改，只能追加。
2）它能保证数据的一致性。
可构建在廉价机器上
1）它通过多副本机制，提高可靠性。
2）它提供了容错和恢复机制。比如某一个副本丢失，可以通过其它副本来恢复。

2.2 缺点

低延时数据访问
1）比如毫秒级的来存储数据，这是不行的，它做不到。
2）它适合高吞吐率的场景，就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的，比如毫秒级以内读取数据，这样它是很难做到的。
小文件存储
1）存储大量小文件的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，因为NameNode的内存总是有限的。
2）小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。
并发写入、文件随机修改
1）一个文件只能有一个写，不允许多个线程同时写。
2）仅支持数据 append（追加），不支持文件的随机修改。

3. HDFS体系架构

3.1 体系架构

HDFS架构图.png

HDFS主要有以下组件组成：

Client客户端
NameNode管理者
DataNode数据节点
SecondaryNameNode节点，辅助NameNode完成一些工作

3.2 Client客户端

客户端是用户和HDFS进行交互的手段，HDFS提供了各种各样的客户端，包括命令行接口、Java API, Thrift接口、C语言库、用户空间文件系统〔Filesystem in Userspace,FUSE)等
主要工作内容：

文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。
与 NameNode 交互，获取文件的位置信息。
与 DataNode 交互，读取或者写入数据。
Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS。
Client 可以通过一些命令来访问 HDFS。

3.3 NameNode管理节点

NameNode就是HDFS的Master架构，主要负责HDFS文件系统的管理工作，具体包括名称空间(namespace)管理，文件Block管理。

名称空间(namespace)管理：它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个，分别是Namespace 镜像文件(fsimage)和操作日志文件(edit log)，这些信息被Cache在RAM中以及持久化存储在本地硬盘。
fsimage：metadata存储到磁盘中的镜像文件
editlog：记录对medadata的操作日志
文件Block管理：Namenode记录着每个文件中各个块所在的数据节点的位置信息（元数据信息），从NameNode中你可以获得每个文件的每个块所在的DataNode。但是他并不持久化存储这些信息，因为这些信息NameNode会在每次启动系统时动态地重建这些信息。
元数据信息，包括：
1）文件owership和permissions
2）文件包含哪些Block
3）Block保存在哪个DataNode（由DataNode启动时上报）
接收客户端读写请求
配置副本策略

3.4 DataNode数据节点

3.4.1 功能

存储数据：一个数据块Block会在多个DataNode中进行冗余备份；而一个DataNode对于一个块最多只包含一个备份。所以可以简单地认为DataNode上存储了数据块ID和数据块内容，以及它们的映射关系。
启动DN线程的时候会向NN汇报block信息
通过心跳定时和NameNode进行通信发送所存储的文件块信息(3秒一次)，并在心跳通信应答中接受NameNode的指令，如删除数据库或者把数据块复制到另一个DataNode（如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其他DN）
作为服务器接受来自客户端的访问，处理数据块读/写请求（DataNode之间还会相互通信，执行数据块复制任务，同时，在客户端执行写操作的时候，DataNode之间需要相互配合，以保证写操作的一致性）

3.4.2 数据块block

3.4.2.1 block配置

HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M

3.4.2.2 文件读取时间

文件查找时间主要分为两个阶段：磁盘寻址开销时间和磁盘传输时间

为了最小化磁盘寻址时间，会设置block的物理块大于磁盘块大小，如果块设置得足够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而，传输一个由多个块组成的文件的时间取决于磁盘传输速率。
如果寻址时间（找到物理位置）约为10ms，而传输速率为100MB/s，为了使寻址时间仅占传输时间的1%（最佳状态），我们要将块大小设置约为100MB。默认的块大小实际为64MB，但是很多情况下HDFS使用128MB的块设置。
块的大小：10ms $\times$ 100 $\times$ 100M/s = 100M

image

3.1.3 block副本

HDFS中为了保证数据高可用性及容错性，会另外存储block的副本文件到其他节点上

副本数设置
在dfs-site.xml里设置

<property> 
    <name>dfs.replication</name> 
    <value>3</value> 
</property>

比如这里设置成3个副本数，这时候就会按照以下机架策略进行分配节点数据

机架存储策略

机架存储策略.jpg

若存在多个机架，副本存储策略如下：
1）本机架A一个数据节点存储一份
2）另外一个机架B挑选一个数据节点存储一份
3）最后一份仍在机架B上挑选不同的数据节点进行存储

3.5 SecondNameNode

主要是定时对NameNode的数据snapshots进行备份，这样可尽量降低NameNode崩溃之后导致数据丢失的风险。
主要工作内容：

从NameNode获得fsimage和edits后把两者重新合并发给NameNode，这样可以减轻NameNode的工作负担，又可以安全的进行备份（通常SecondNameNode会单独部署在新的物理机上）
一旦NameNode挂掉，SecondeNameNode会辅助进行数据恢复（但由于SNN上的数据同步会有一定的延迟，不可避免的会存在一些数据丢失的情况，所以目前更多采用的是NameNode HA的集群部署方式）

3.5.1 目录结构

NameNode目录结构
${dfs.name.dir}/current
................................./VERSION
................................./edits
................................./fsimage
................................./fstime
SecondNameNode目录结构
${fs.checkpoint.dir}/current
...................................../VERSION
...................................../edits
...................................../fsimage
...................................../fstime
............................./previous.checkpoint
...................................../VERSION
...................................../edits
...................................../fsimage
...................................../fstime

5.3.2 工作原理

image.png

概念：
edit log：当客户端执行写操作，则NameNode会在edit log记录下来，并在内存中保存一份文件系统的元数据。
fsimage：是文件系统元数据的持久化检查点，不会在写操作后马上更新，因为fsimage写非常慢
目的：
由于Edit log不断增长，在NameNode重启时，会造成长时间NameNode处于安全模式，不可用状态，是非常不符合Hadoop的设计初衷。所以要周期性合并Edit log，但是这个工作由NameNode来完成，会占用大量资源，这样就出现了Secondary NameNode，它可以进行image检查点的处理工作。
工作步骤：

Secondary NameNode请求NameNode进行edit log的滚动（即创建一个新的edit log），将新的编辑操作记录到新生成的edit log文件；
通过http get方式，读取NameNode上的fsimage和edits文件，到Secondary NameNode上；
读取fsimage到内存中，即加载fsimage到内存，然后执行edits中所有操作，并生成一个新的fsimage文件，即这个检查点被创建；
通过http post方式，将新的fsimage文件传送到NameNode；
NameNode使用新的fsimage替换原来的fsimage文件，让（1）创建的edits替代原来的edits文件；并且更新fsimage文件的检查点时间。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345