多线程主线程与子线程执行顺序问题
案发现场
上述代码目标是完成在库600w微信公众号会员数据的清洗,通过jdbc游标一次性从从库中拿出所有数据,游标while循环遍历组装一个100位的数组,并通过多线程去拿着这个数组完成后续操作;
期望如下图:
但是!!实际结果
在线程池执行数组拼装的时候,每一个线程执行的都是当前第一个100页的数组(ps:后来得知真实情况是线程并不是每次都是执行第一次,而是看运气可能会执行前面线程执行过的数组,纯看cpu资源抢占的运气)
因为清洗数据都是大半夜开始执行,当跑到大半夜的时候发现问题,立即停掉服务定位问题;中间一直走过许多弯路,首先考虑的是数据结构为非线程安全,花了大量力气把arrayBuffer换成其他安全数据结构,但是依然无果,各种无果情况下,特在此特别鸣谢 远在深圳前领导老王-祥哥,在他指导下,迅速定位问题,照搬代码(照搬过程中其实也是不知其所以然,只为解决问题。。。。)解决当下问题;
附上修改之后代码如下:
上述代码运行如下:
可以看到经过修改之后代码正确按照期望运行,每次游标组装100个arrayBuffer之后开启多线程异步去处理,主线程继续遍历下一页的arrayBuffer,且每个线程数据不会乱
相比较两者差异可以发现,唯一经过改动的代码为
if (arrayBuffer.length == 99) {
val asList = arrayBuffer.toList
exec.execute(()=>{
logger.info(s"子线程开始请求${asList}")
})
logger.info(s"主线程开始${arrayBuffer}")
arrayBuffer.clear()
}
每次arraybuffer.toList()方法放到了线程池之外的主线程去执行,子线程则每次执行最新的arrayBuffer
问题原因:线程池多线程执行过程中主线程与子线程执行顺序问题:
在线程池开启时,其实背后做的是mainThread中从线程池拿到线程资源开启子线程异步 去执行线程池excute()函数方法,因为在多线程处理情况过程中,主线程因为已经开始执行,当前是霸占了cpu资源的,而线程池中线程为mainThread线程中的子线程,子线程的执行顺序是低于main主线程的,所以当主线程拿到cpu资源之后,子线程会去拿cpu资源时,是低于主线程的,所以导致arrayBuffer.toList是子线程去操作的,也就是都会优先去执行主线程中的 arrayBuffer.clear();这样子线程中永远在跟主线程抢占资源的时候偶尔会出现上述代码中执行前面一条线程的arrayBuffer;
刚开始时,只有主线程在使用CPU的执行权,因为其他两个线程还没有被创建,这时主线程的代码就自上而下的去执行。
当主线程的内容执行完毕后,就开始创建并启动其他的线程,此时,栈中有三个线程:主线程、Thread-0和Thread-1线程(上述demo中只开启了两个)。但是主线程中的arrayBuffer最后toList()是在子线程去执行的,所以现在相当于只有Thread-0和Thread-1线程抢资源情况都会去执行主线程中arrayBuffer1,而不是我们要求的t1 =>arraybuffer1,t2 =>arraybuffer2,因此我们会看到这两个线程在轮流抢占CPU的执行权且都在执行arraybuffer1
基于上述原理,所以我们要做的核心目的是让子线程每次执行的都是最新的arrayBuffer,
val asList = arrayBuffer.toList
所以老司机的建议做法吧arraybuffer的toList()从子线程参数放到main主线程中(因为arrayBuffer.clear在主线程中执行,他是优先执行的)