HDFS机制的理解

一、写入数据
HDFS写入数据时，根据block存储策略可能不同。首先要看是否启用了hadoop的机架感知，默认是关闭的，所有机架名为“/default-rack”所以在hdfs写入数据时是随机的，也就是说，很可能hadoop将第一个数据块block1写到rack1的node1上，然后将block2写在了rack2上node2上，再接下来随机的选择block3又重新写回了rack1上的node3上时，这样rack间的数据流量会成倍增加，成为性能的瓶颈，进而影响整个集群的服务。启用机架感知，只需修改在namenode的配置文件hadoop-site.xml中的选项：
<property>
<name>topology.script.file.name</name>
<value>/path/to/RackAware.py</value>
</property>
这个配置选项的value指定为一个可执行程序，通常为一个脚本，该脚本接受一个参数，输出一个值。接受的参数通常为某台datanode机器的 ip地址，而输出的值通常为该ip地址对应的datanode所在的rack，例如"/rack1"。Namenode启动时，会判断该配置选项是否为空，如果非空，则表示已经用机架感知的配置，此时namenode会根据配置寻找该脚本，并在接收到每一个datanode的heartbeat时，将该 datanode的ip地址作为参数传给该脚本运行，并将得到的输出作为该datanode所属的机架，保存到内存的一个map中。
至于脚本的编写，就需要将真实的网络拓朴和机架信息了解清楚后，通过该脚本能够将机器的ip地址正确的映射到相应的机架上去。一个简单的实现如下：

!/usr/bin/python

--coding:UTF-8 --

import sys

rack = {"hostname1":"rack1",
"hostname2":"rack1",
"hostname3":"rack2",
"hostname4":"rack2",
"ip1":"rack1",
"ip2":"rack1",
"ip3":"rack2",
"ip4":"rack2",
}
if name=="main":
print "/" + rack.get(sys.argv[1],"rack0")

而当Hadoop集群中配置了机架感知信息以后，hadoop在选择三个datanode时，就会进行相应的判断：
　　1.如果上传本机不是一个datanode，而是一个客户端，那么就从接近客户端所在的机架下slave机器中随机选择一台datanode作为第一个块block1的写入机器(datanode1)。
　注意：而此时如果上传机器本身就是一个datanode（例如mapreduce作业中task通过DFSClient向hdfs写入数据的时候），那么就将该datanode本身作为第一个块写入机器(datanode1)。
　　2.随后在datanode1所属的机架以外的另外的机架上，随机的选择一台，作为第二个block的写入datanode机器(datanode2)。
　　3.在写第三个block前，先判断是否前两个datanode是否是在同一个机架上，如果是在同一个机架，那么就尝试在另外一个机架上选择第
三个datanode作为写入机器(datanode3)。而如果datanode1和datanode2没有在同一个机架上，则在datanode2所在的机架上选择一台datanode作为datanode3。
4.得到3个datanode的列表以后，从namenode返回该列表到DFSClient之前，会在namenode端首先根据该写入客户端跟 datanode列表中每个datanode之间的"距离"由近到远进行一个排序。如果此时DFS写入端不是datanode，则选择datanode列表中的第一个排在第一位。客户端根据这个顺序有近到远的进行数据块的写入。
因此，判断两个datanode之间"距离"的算法就比较关键，hadoop目前实现如下，以两个表示datanode的对象DatanodeInfo(node1,node2)为例:
每个datanode都会对应自己在集群中的位置和层次，如node1的位置信息为"/rack1/datanode1",那么它所处的层次就为2，其余类推。得到两个node的层次后，会沿着每个node所处的拓朴树中的位置向上查找，如"/rack1/datanode1"的上一级就是" /rack1"，此时两个节点之间的距离加1，两个node分别同上向上查找，直到找到共同的祖先节点位置，此时所得的距离数就用来代表两个节点之间的距
离。所以，如上图所示，node1和node2之间的距离就为4.
5.当根据"距离"排好序的datanode节点列表返回给DFSClient以后，DFSClient便会创建BlockOutputStream，并将这次block写入pipeline中的第一个节点（最近的节点）。写入块时，以更小的数据包packet（64k）写入，datanode写入一个小单位完成后就会把这个小单位的数据推送给下一个datanode，直到第一个block的最后一个数据包在第三个备份完成，向namenode报告写完了第一个block。第一个datanode向client 通知写完了，然后client向namenode确认写完以后，第一个block写入完成。其中校验和写入时并行的。
6.写完第一个block以后，依次按照datanode列表中的次远的node进行写入，直到最后一个block写入成功，DFSClient返回成功，该block写入操作结束。
概括下：client负责切割文件，NN负责为数据块分配DN，DN对数据进行存储冗余！！
数据块的第一个副本优先放在写入数据块的客户端所在的节点上，但是如果这个客户端上的数据节点空间不足或者是当前负载过重，则应该从该数据节点所在的机架中选择一个合适的数据节点作为本地节点。如果客户端上没有一个数据节点的话，则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。HDFS的存放策略是将一个副本存放在本地机架节点上，另外两个副本放在不同机架的不同节点上。这样集群可在完全失去某一机架的情况下还能存活。同时，这种策略减少了机架间的数据传输，提高了写操作的效率，因为数据块只存放在两个不同的机架上，减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。
　　通过以上策略，namenode在选择数据块的写入datanode列表时，就充分考虑到了将block副本分散在不同机架下，并同时尽量的避免了之前描述的过多的网络开销。

读取数据

我们看一下Hadoop集群配置中如何读取数据。当对某个文件的某个block进行读取的时候，hadoop采取的策略也是一样：

1.首先得到这个block所在的datanode的列表，有几个副本数该列表就有几个datanode。用a列列出文件的数据块，b列列出数据块的对应的DN，告诉client，client知道用多少数据块可以下载，并知道数据块的位置。
　　2.根据列表中datanode距离读取端的距离进行从小到大的排序：
　　a)首先查找本地是否存在该block的副本，如果存在，则将本地datanode作为第一个读取该block的datanode
　　b)然后查找本地的同一个rack下是否有保存了该block副本的datanode
　　c)最后如果都没有找到，或者读取数据的node本身不是datanode节点，则返回datanode列表的一个随机顺序。

最后编辑于：2017.12.05 07:03:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

HDFS机制的理解

!/usr/bin/python

--coding:UTF-8 --

推荐阅读更多精彩内容