上篇文章对python多线程进行了介绍,GIL锁使得python的多线程并不能并发执行,为了提高多核CPU的利用率,可以采取多进程的方式,即为每个任务单独启动一个独立的进程,每个进程的主线程可以在多核CPU中并发执行,进而提高程序的运行速度。在考虑使用多进程之前,也必须了解多进程的缺点:比多线程占用更多的系统资源,切换速度慢,而且各进程之前数据默认不能共享。
python多进程之间数据不能简单共享
进程是系统独立调度核分配系统资源(CPU、内存)的基本单位,进程之间是相互独立的,每启动一个新的进程相当于把数据进行了一次克隆,子进程里的数据修改无法影响到主进程中的数据,不同子进程之间的数据也不能共享,这是多进程在使用中与多线程最明显的区别。通过观察下面两段代码,看看多进程与多线程在数据共享上的区别。
左边的代码采用了多进程,从执行结果可以发现:主进程与子进程中打印出count的值并不相同,也就说明主进程和子进程中的count不是一个变量,因此在主进程中对count的修改没有影响到子进程。同理我们把第5行和第11行的代码进行调换(即在子进程中对count的值进行修改),同样也会发现主进程和子进程中打印出来count的值不相同。不仅如此,不同子进程之间的数据也是不能共享的,读者可以自己编写代码验证。作为对比,右边是多线程的例子,可以发现主线程和子线程是公用一个count的。
python多进程间的通信
python的multiprocessing模块提供了多个组件用于实现多进程间的通信,如Queue、Pipe、Manager、Event,其中Queue是一个先进先出(First In First Out)的队列,主进程中创建一个Queue对象,并作为参数传入子进程,两者之间通过put( )放入数据,通过get( )取出数据,执行了get( )函数之后队列中的数据会被同时删除。
Queue实现了消息的“阅后即焚”,不用担心消息队列的清理,使用起来很方便,但缺点也很明显:如果主进程开启了多个子进程,需要为每个子进程创建一个不同的Queue对象,管理起来会很麻烦,而且会造成很大的系统开销。类似的方法还有Pipe,与Queue最大的不同是:它在不同的进程间建立了两个管道,创建一个Pipe对象会返回两个实例,两个实例都可以分别调用send( )和receive( )实现数据的发送和接收,用法很简单,这里不再赘述。
python使用Manager实现多进程的数据共享
以上提到的Queue和Pipe只能算是实现了两个进程间的通信,如果要实现多个进程之间的数据共享,需要用到Manager。Manager创建的字典或列表能够在不同进程中读取和修改,实现数据的共享。下图是利用Manager的字典实现数据共享的例子,代码很简单,大家自己看吧。唯一需要提醒的是:这个字典是用Manager创建的,跟python原生的字典不是一回事,也就是说只有Manager的字典才能实现不同进程间的数据共享。
最后
我帮朋友写的自动挂机程序要实现高度的自动化,就需要定期检查各子进程(模拟器)的运行状态,因此在主进程里获取所有子进程的PID,通过multiprocessing模块的Manager组件能够完美实现这一功能,上图的代码实际就是干这件事的。最后补充一点非常重要的提醒:如果要在windows下使用multiprocessing,必须在代码入口添加multiprocessing.freeze_support( ),否则用pyinstaller打包成exe,执行中会出现主进程无限循环的问题。