1. row_number 数据倾斜
partition的字段,可能是倾斜的,单独领出来,union all俩部分
2. group by数据倾斜
group by 的一些字段存在极端值,比如0 1 null
3. map&reduce数量
reduce有集群默认的最大值,可能不够需要调整,同时map数过大的话,会影响任务
4. join 数据倾斜问题
合理设置map&reduce数量
partition的字段,可能是倾斜的,单独领出来,union all俩部分
group by 的一些字段存在极端值,比如0 1 null
reduce有集群默认的最大值,可能不够需要调整,同时map数过大的话,会影响任务
合理设置map&reduce数量