map reduce1的任务处理流程
- 输入数据
- 数据分片
- map处理
-
map shuffle(混淆)
collector -> 缓冲区 ->到达阈值就sortAndSpill磁盘 ->merge
5 combine(本地的reduce, 不是什么统计都能用combine)
- reduce shuffle
复制map输出(先复制到内存,超过阈值就flush磁盘)->排序合并
- reduce
- 输出数据
map shuffle(混淆)
collector -> 缓冲区 ->到达阈值就sortAndSpill磁盘 ->merge
5 combine(本地的reduce, 不是什么统计都能用combine)