大数据原理及技术—MapReduce

MapReduce是一个分布式并行计算框架。在MapReduce中,一个存储在分布式文件系统中的大规模数据集会被切分成许多独立的小数据块,这些小数据块可以被多个Map任务并行处理。MapReduce框架会为每个Map任务输入一个数据子集,Map任务生成的结果会继续作为Reduce任务的输入,最终由Reduce任务输出最后结果,并写入分布式文件系统。

MapReduce模型的核心是Map函数和Reduce函数。函数都是以作为输入,按一定的映射规则转换成另一个或一批输出。Map函数的输入来自于分布式文件系统的文件块,其格式是任意的,可以是文档、也可以是二进制格式。Reduce函数的输入是一系列具有相同键、以某种方式组合的值,并也以键值对的形式输出到文件。

MapReduce工作流程

MapReduce的核心思想可以用“分而治之”描述,也就是把一个大的数据集拆分成多个小数据块在多台机器上并行梳理。在MapReduce执行过程中,Map任务的输入文件、Reduce任务的处理结果都是保存在分布式文件系统,而Map任务的中间结果则保存在本地存储(比如磁盘),Spark则保存在内存。

注:不同Map任务间不会进行通信,不同Reduce任务间也不会发生信息交换,机器之间的任务交换由MapReduce框架实现,不需要用户定义实现。

Map Reduce执行阶段

shuffle详解

shuffle是指对Map输出结果进行分区(partition)、排序(sort)、合并(combine)、归并(merge)等处理并交给Reeduce的过程,此过程分为Map端的操作和Reduce端的操作,是MapReduce的核心环节。

Shuffle过程

Map端的shuffle过程

Map的输出结果首先被写入缓存,缓存满时就启动溢写操作,把缓存数据写入磁盘文件,并清空缓存。启动溢写操作时,首先把缓存数据进行分区,然后对每个分区数据进行排序、合并,在写入磁盘。每次溢写会生成一个新磁盘文件,随着Map任务的执行,磁盘会生成多个溢写文件,所以在Map任务全部结束前,这些溢写文件会归并成一个大的磁盘文件,然后通知相应的Reduce任务来领取属于自己处理的数据。

4个步骤:

(1)输入数据和执行Map任务。

        输入数据一般为保存在分布式文件系统的文件块(任意格式,文件或二进制),以<key,value>作为输入,按一定一定映射规则转换成一批<key,value>输出。

(2)写入缓存。

        每个Map任务分配一个缓存,减少多次磁盘寻址开销,从而减少磁盘I/O。

(3)溢写(分区、排序、合并)

缓存数据形式,缓存容量有限,所以会启动溢写。溢写到磁盘前,缓存数据会先被分区,默认分区方式:采用Hash函数对key进行hash,再用Reduce任务的数量取模,表示为hash(key) mod R,R即是Reduce任务数量。这样就把Map输出结果均匀分配到R个Reduce任务并行处理。分区后,对每个分区数据根据key进行排序,以及可选的合并操作。合并,是指将相同key的的value加起来,比如<"xmu",1>和<"xmu",2>经过合并操作后得到<"xmu",3>,一般累加、最大值场景可以使用合并操作。

        每次溢写操作后在磁盘新生成一个溢写文件,并且所有键值对都是经过分区、排序的。

(4)文件归并 <k,v>—><k,v-list>

        归并是指将相同key的键值归并成一个新的键值对。<k1, v1>,<k1, v3>......<k1, vn>被归并成<k1,<v1,v2......vn>>。

Reduce端的shuffle过程

Reduce任务从Map端的不同Map机器领回属于自己处理的数据,然后对数据进行归并后提交给Reduce处理。

3个步骤:

(1)领取数据

        Map端shuffle结束后,所有输出结果保存在Map机器的本地磁盘,Reduce任务会把(不是这一步)这些数据领取(fetch)回来放到自己所在机器的本地磁盘。

(2)归并数据

        领回的数据首先放在本机缓存,一样会进行溢写操作,因为会从多个Map机器领取数据,因此会进行归并,再合并数据。因此当所有Map端数据被领回,多个溢写文件会被归并成一个大文件(同样会对键值对排序)。

(3)数据输入给Reduce任务

        多轮归并得到若干大文件,直接将这些文件输入给Reduce任务。不再继续归并目的是减少磁盘读写开销。


Map Reduce过程示例
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容