1、yarn的container模型说明
container的内存分为两部分
- jvm进程的内存大小
- container启动工作的内存大小,一般占用15% container
container 启动是由appmaster启动,接收appmaster的管理
2、mr 计算过程
map阶段
- 一个大文件分成多个小文件块输入到 map中
- map将文件块读取排好序生成小文件
- 多次合并小文件,最终生成有序文件,并根据reduce的个数分区
shuffle 阶段
- map的container, 启动服务于reduce取数的线程
- reduce 启动拉取数据线程拉取数据
reduce阶段
- 读取多个map归属于同一个reduce分区的数据
- 读取达到缓存池大小时生成小文件
- 多次合并小文件并排序,最终生成一个有序的大文件上传到hdfs
备注:图中缺失reduce的spill小文件阶段
2.1、map的参数
mapreduce.task.io.sort.mb 用于map输出排序的内存大小 100
mapreduce.map.sort.spill.percent 开始spill的缓冲池阈值 0.8
mapreduce.task.io.sort.factor 合并文件数最大值,与reduce共用 10
mapreduce.map.output.compress 输出是否压缩 false
mapreduce.map.output.compress.codec 压缩算法类 DefaultCodec压缩算法
mapreduce.shuffle.max.threads 用于reduce提取结果的线程数量 0 设置为0表示默认值为可用处理器数量的2倍
2.3、reduce的参数
mapreduce.reduce.shuffle.parallelcopies 5 提取map输出的copier线程数
mapreduce.task.io.sort.factor 10 合并文件数最大值,与map共用
mapreduce.reduce.shuffle.input.buffer.percent 0.70 copy阶段用于保存map输出的堆内存比例
mapreduce.reduce.shuffle.merge.percent 0.66 开始spill文件的缓冲池比例阈值
mapreduce.reduce.merge.inmem.threshold 1000 开始spill的reduce输出文件数阈值,小于等于0表示没有阈值,此时只由缓冲池比例来控制
mapreduce.reduce.input.buffer.percent 0.0 reduce函数开始运行时,内存中的map输出所占的堆内存比例不得高于这个值,默认情况内存都用于reduce函数,也就是map输出都写入到磁盘
3、内存溢出
hive在执行mr任务时,内存溢出分为三中情况
- map阶段
- shuffle阶段
- reduce阶段
3.1、map阶段
mapjoin 分3个阶段 参考 https://www.cnblogs.com/yeyuzhuanjia/p/17921752.html
- 读取小表的数据生成hashtable文件
- 上传到hdfs目录
- 启动map任务,通过map与hastable进行计算
生成hashtable时hive会启动本地map , 这时是占用hive的内存。这一般不会出现内存不足的情况;在map 与hashtable进行运算时会出现内存不足的情况
Starting task [Stage-4:MAPREDLOCAL] in serial mode
解决
方法一 、关闭mapjoin使用common join即在reduce端进行join
set hive.auto.convert.join=false;
方法二、调大mr的内存
set mapreduce.map.memory.mb=4096;
set mapreduce.map.java.opts=-Xmx3900m;
set mapreduce.reduce.memory.mb=4096;
set mapreduce.reduce.java.opts=-Xmx3900m;
3.2、shuffle阶段
可以调整mr的参数,也可无脑同上增大内存
3.3、reduce 阶段
方法一、 调整mr参数
set hive.exec.reducers.bytes.per.reducer=30000000 #调整每个reduce处理数据大小,从而增大reduce数进行分散
方法二、也可无脑同上增大内存
常见问题
1、beeline 执行查询获取数据内存不足
beeline默认启动内存128M,查询时返回结果集过大,导致beeline无法承载导致。
org.apache.thrift.TException: Error in calling method FetchResults
at org.apache.hive.jdbc.HiveConnection$SynchronizedHandler.invoke(HiveConnection.java:1421)
.....
Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded
at java.util.Arrays.copyOf(Arrays.java:3332)
at java.lang.StringCoding.safeTrim(StringCoding.java:89)
解决
export HIVE_OPTS=-Xmx1024M