当我们在操作表进行join时,如何尽可能的避免shuffle过程?
(1)设置分数函数和分数数一样
两个RDD进行join操作前,对其分别执行了paritionBy 算子操作,并执行力分区函数和分区数:分区函数使用了HashPartition,分区数分别为1和2。
上图中可以看到,两个RDD发生join 是个宽依赖,是发生shuffle了的;那如何避免shuffle呢?
让join操作变成窄依赖便不会产生shuffle了,需要让两个RDD的分区函数和分区一样即刻实现窄依赖的效果。看下图就可以简单了解到。
(2)使用map-side join 替换掉join
这个场景有点局限了,其中一个表不能过大,因为需要进行广播,如果太大,那么广播到executor端,会占用的内存过大。