对HDFS和MapReduce的简单理解

0开始之前，我觉得有必要结合所见所学，说说大数据时代下的背景。

首先，对于数据，我们一个是要保存它，二个是要处理它。怎么做呢？很简单，用计算机呗。像一般我们熟知的家用电脑，什么号称高性能的游戏本，对于大多数人处理生活中的数据已经是绰绰有余了，为什么？因为这个数据量只是限于“家用”“个人”，说白了就是规模太小了。然而我们换个地方，我们来统计一下某一个高速路收费站，某一天所有车流量的信息（车牌号，户主等等），成百上千的数据？可以，那我们换成某个市的呢？我们再换成全国的呢？甚至把一天的换成一个星期，一个月的呢？那就恐怖了，根据网上信息，2016年7月份，全国高速公路，光是客车流量就已经高达39073万辆次，更别说加上你家的小轿车。好了，我们现在怎么存储这些数据呢，用你家电脑的硬盘？恐怕会炸的，那换更个大的硬盘？500G？5000G?50000G?先别说你买不买得起，就说你有没有这种硬盘可能都是问题。所以，靠原始思路，单纯的扩充存储容量，无论从科技技术还是经济效益来讲都是不可行的。我们的处理器，CPU，也是同理，打打小游戏估计可以，处理这么大的数据的话，还是得另想办法了。

怎么办？这就是我们Hadoop框架出现的意义了，为规模庞大的数据处理提供了可能性。我个人理解，它的核心思想就是化整为零，并行计算！也就是我们说的“分布式”。简单说来，你500G的硬盘可以有，那我两个250G的硬盘加起来还不是500G；你50000G的硬盘可能找不到，但是我能找到100个500G的硬盘啊。处理数据同理，计算 1*2+3*4 ，你可以一个人算，我也可以先找个人算1*2，再让另外个算3*4，最后汇总加上，结果是不是相同呢？这就是简单的对Hadoop框架的理解。

HDFS

HDFS，是一种，工头指挥一群工人干活的文件系统，大多应该都是是 主/从（Master/Slave）架构，像我们配置的主节点的有NameNodes，从节点有DataNodes。我们工头NameNodes负责调度，各个DataNodes就负责干活。另外还有一个叫做Secondary NameNode，都简单说说我的理解。

1.NameNodes

顾名思义，名称节点，它就相当于整个班的花名册，但是存的东西更多，包括整个文件系统的东西的信息、文件、结构。比如a数据节点在这个地方，存了xxxx；b数据节点在那个地方，存了xxxx... ...现在要让某数据节点干活，一个一个的找？太蠢了，直接翻花名册呗。NameNodes还监管着文件系统的常用操作，创建文件，重命名文件等。所以我们在使用文件系统时，几乎都是先和这东西打交道的，这也是为什么它被放在主节点的原因。

2.DataNodes

顾名思义，数据节点，这就是我们真正存数据的地方，并且都有单独的计算能力，可以理解为一台简化的电脑（显示屏用不着，键盘鼠标等都用不着）。我们一旦从NameNodes那儿知道了各个DataNodes的具体信息，我们就不再和NameNodes打交道，而直接向DataNodes操作，NameNodes再实时记录这些变化。

扔一张网上经常出现的图

3.Secondary NameNode

依旧顾名思义，第二个NameNode，第二个名称节点，干啥的呢？假如你的NameNodes歇火了怎么办？特别是搞金融、个人信息的，一不小心就是分分钟几千万上下的损失，干着急吗？这SecondaryNameNode就可以说是一种预防措施之一，它虽然并不像NameNodes一样实时记录各节点变化，但是它是NameNodes的一种快照，他会与NameNodes进行通信，如果NameNodes发生问题，Secondary NameNode可以及时地作为备用NameNode使用。如果集群庞大，它会部署在一个单独的服务器上（我们那三个节点就... ...算了算了）。

稍微说说Hadoop的“预防措施”：

数据丢失，机器故障这些谁都说不准，最好的做法只能未雨绸缪，怎么办？数据备份，你想备份多少备份多少（HDFS默认的是3份来着），如果实在倒霉得一次性数连备份都丢完了，那怎么办？赔钱呗。具体是怎么备份的，可以去网上找找，我现在理解的还不够。

MapReduce

MapReduce，这个就不能直译了，它是一种编程模型，其实是由两个部分，map和reduce组成。如刚才所说，HDFS有和Master和Slave的区分（其实现在应该是Master和Worker），其中干活的是Slave。而Slave有很多很多台，更有具体的分工，也就是Map和Reduce。

1.Map

简单说就是执行我们规定的函数的地方。再拓宽来讲，首先Master把具体的job细分，扔给执行Map的Slave，我们想要对数据进行处理的函数模型就是在Map中。

2.Reduce

这个说白了就是统计结果的东西。Map干完活了，零零散散的结果你直接扔给Boss吗？怕不是要一巴掌打死你。Map得到结果后扔给Reduce，Reduce汇总统计后，才会再得出最终的答案。

For Example:

全班60个人，其中班委8个人，我们来统计全班的平均身高：

1. 老师让8个班委中的6个人来算各个小组的平均身高，2个人来汇总

2. 老师把60个人分成了6组，分别给6个班委统计，每个班委统计10个人

3. 6个班委分别得出了每10个人的平均身高，再提交给2个负责统计的同学

4. 2个统计的同学得出全班平均身高

最后，MapReduce就是一种分而治之的数据处理理念。但是实际情况肯定复杂得多，我所说的的只是简单的核心流程。

如果有理解错误的地方，欢迎随时在下方评论。（￣︶￣）↗

。

最后编辑于：2017.12.09 21:48:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345