Map

Job类初始化JobClient实例，JobClient中生成JobTracker的RPC实例，这样可以保持与JobTracker的通讯，JobTracker的地址和端口等都是外部配置的，通过Configuration对象读取并且传入。

2.JobClient提交作业。

3.JobClient生成作业目录。

4.从本地拷贝MapReduce的作业jar文件(一般是自己写的程序代码jar)。

5.如果DistributedCache中有需要的数据，从DistributedCache中拷贝这部分数据。

6.根据InputFormat实例，实现输入数据的split，在作业目录上生成job.split和job.splitmetainfo文件。

7.将配置文件写入到作业目录的job.xml文件中。

8.JobClient和JobTracker通讯，提交作业。

9.JobTracker将job加入到job队列中。

10.JobTracker的TaskScheduler对job队列进行调度。

11.TaskTracker通过心跳和JobTracker保持联系，JobTracker收到后根据心跳带来的数据，判断是否可以分配给TaskTracker Task，TaskScheduler会对Task进行分配。

12.TaskTracker启动TaskRunner实例，在TaskRunner中启动单独的JVM进行Mapper运行。

13.Map端会从HDFS中读取输入数据，执行之后Map输出数据先是在内存当中，当达到阀值后，split到硬盘上面，在此过程中如果有combiner的话要进行combiner，当然sort是肯定要进行的。

14.Map结束了，Reduce开始运行，从Map端拷贝数据，称为shuffle阶段，之后执行reduce输出结果数据，之后进行commit的操作。

15.TaskTracker在收到commit请求后和JobTracker进行通讯，JobTracker做最后收尾工作。

16.JobTracker返回结果给JobClient，运行结束。

Map端机制

对于map端的输入，需要做如下的事情：

1.反射构造InputFormat.

2.反射构造InputSplit.

3.创建RecordReader.

4.反射创建MapperRunner(新api形式下是反射创建org.apache.hadoop.mapreduce.Mapper.Context).

对Map端输出，需要做如下的事情：

1.如果有Partitioner的话，反射构造Partitioner。

2.将key/value/Partitioner数据写入到内存当中。

3.当内存当中的数据达到一定阀值了，需要spill到硬盘上面，在spill前，需要进行排序，如果有combiner的话需要进行combiner。

4.sort的规则是先进行Partitioner的排序，然后再进行key的字典排序，默认的是快速排序。

5.当生成多个spill文件时，需要进行归并，最终归并成一个大文件

关于排序：

1.在内存中进行排序，整个数据的内存不会进行移动，只是再加上一层索引的数据，排序只要调整索引数据就可以了

2.多个spill文件归并到一个大文件时，是一个归并排序的过程，每一个spill文件都是按分区和key排序好的，所以归并完的文件也是按分区和key排序好的。

在进行归并的时候，也不是一次性的把所有的spill文件归并成一个大文件，而是部分spill文件归并成中间文件，然后中间文件和剩下的spill文件再进行一次归并，依次类推，这个的考虑还是因为一次归并文件太多的话IO消耗太大了，如下图:

Reduce端机制

1。ReduceTask有一个线程和TaskTracker联系，之后TaskTracker和JobTracker联系，获取MapTask完成事件

2. ReduceTask会创建和MapTask数目相等的拷贝线程，用于拷贝MapTask的输出数据，MapTask的数据一般都是非本地的

3. 当有新的MapTask完成事件时，拷贝线程就从指定的机器上面拷贝数据，是通过http的形式进行拷贝

4. 当数据拷贝的时候，分两种情况，当数据量小的时候就会写入内存当中，当数据量大的时候就会写入硬盘当中，这些工作分别由两个线程完成

5. 因为所有的数据都来自不同的机器，所以有多个文件，这些文件需要归并成一个文件，在拷贝文件的时候就会进行归并动作

6. 拷贝和归并过程统称为shuffle过程

Reduce端输出需要做如下的事情：

1.构造RecordWriter，这个是根据客户端设置的OutputFormat中getRecordWriter()方法得到

2.通过OutputFormat和RecordWriter将结果输出到临时文件中

3.Rudece进行commit过程，和TaskTracker进行通信，TaskTracker和JobTracker进行通信，然后JobTracker返回commit的指令，Reduce进行

commit，将临时结果文件重命名成最终的文件

4.commit成功后，kill掉其他的TaskAttempt

最后编辑于：2017.12.03 03:03:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

Map

推荐阅读更多精彩内容