随着硬件发展遇到瓶颈,摩尔定律不在适用。硬件快速提升性能的红利过去之后,人们更多的把视线转移到并发编程当中,利用多核来并行处理事务以提高性能。
熟悉Python
的朋友都对GIL这个词不会陌生。在很长一段时间内,我一直都把GIL简单的等价于Python
多线程效率低下的罪魁祸首,而对于它的原因不甚了解。GIL中文意思是全局解释器锁,它的作用是保证同一时间内仅有一个线程在运行,每当线程发生IO时,GIL锁就是释放给另一个线程使用,如果没有IO发生,则每过一个时间段,GIL会释放而轮转到其他线程操作。顾名思义,由于Python
是解释型语言,所以在运行之前必然要有一个解释器来把语言“解释”成可执行机器码。
需要指出的是,所谓的“全局解释器锁”(即GIL),是仅仅对于CPython
这种解释器而言的。也就是说,如果你在JPython
,PyPy
等环境下运行就完全不必在意GIL。但是由于CPython
是python
内置的默认解释器,所以GIL
已经被视作是Python
的组成部分。
既然在多线程场景下GIL
已然成为了性能的瓶颈,那为什么要把GIL
引入到Python
中来呢?为了充分利用多核来并行处理任务,Python
需要解决多线程之间数据和状态的一致性,而保证数据和状态一致的最简单办法就是加锁。举个例子:Python
中的垃圾回收机制中有一种叫做引用计数。当一个对象的引用数为0的时候,该对象就会被垃圾回收器回收。当我们删除一个对象的某个引用的时候:1.该对象引用的计数器减一 2.判断该对象引用的计数器是否为零,若为零,则启动垃圾回收。假设有线程a和线程b对于对象A存在引用,两者先后删除了对于对象A的引用,而线程a由于某种原因阻塞挂起导致只执行了计数器的减一,而线程b正常执行。现在垃圾回收器检测到对象A的引用计数器已经为零,把对象A回收掉。当线程a从阻塞挂起恢复之后发现对象A已经不见了,从而导致未知问题(竞态条件的常见表现形式)。而GIL对于线程加锁可以直接避免这种线程间数据和状态的一致性问题。
了解了GIL的作用,那应该怎样才能将GIL对性能的影响降到最低呢?
1.既然GIL主要锁住的是线程之间的并行,那我们索性换个思路,使用多进程的模型来处理并发任务,比如使用multiprocess来替代thread。缺点是进程所带来的系统开销要大于线程。如果要保持使用多线程的模型,可以考虑采用协程作为替代方案,主要的库有gevent,twisted等。
2.使用其他解释器,比如采用Java实现的JPython
和使用Python自举的PyPy
都是很好的选择。但由于CPython
本身使用的很多C的特性被很多库广为使用,所以迄今为止,CPython
仍然是Python
解释器的主流选择。
3.在Python3.X中,语言层面增加了asyncio的解决方案,这种方案据悉已经在Instagram的内部代码迁移(从Py2迁移到Py3)中得到广泛的使用。(Flask作者谈Asyncio)
简单来说,由于GIL的存在,只有在IO密集场景下,多线程的表现会优于单线程。其他场景下多线程反而由于线程切换的额外开销而效率更低。值得期待的是,在Py3中增加了令人兴奋的Asyncio特性。
Python中GIL初探
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 转一篇关于Python GIL的文章。归纳一下,CPU的大规模电路设计基本已经到了物理意义的尽头,所有厂商们都开始...