Cython：使用C语言来加速Python

前言

Python语言易用，开发效率高，适用范围广，这些优点是我们经常提起的，几乎做到了家喻户晓吧。但Python语言的性能也一直是大多数使用Python和没使用过Python的人一直诟病的。为什么没有使用过Python的人也诟病Python的性能呢，这就涉及到更深入的话题了，本篇不做深入。和我这样的能力不足的程序员不同是的是，一直有一些聪明人在享受这Python的便利的同时也没有放弃从各个方向优化Python的性能。其中Cython就是一个常用的方案，Cython可以做到像C一样的高性能，同时兼顾Python的简单易用。Cython通过一个Python/C API来完成两个语言之间的交流，以提供在计算密集型任务上对Python的良好性能支持，这里要注意的是只在计算密集型任务上适应这样的解决方案，大部分应用不需要这么做，反而会适得其反。

原生Python

上节说到只有那些计算密集型任务才考虑做性能优化，没有充分的理由不要过早做性能优化，要知道过早的优化是万恶之源。所以我们的例子也是举一个计算密集型示例。计算一定范围内那些数字是素数是一个典型的计算密集型任务。我们这次就用这个作为示例做演示。首先是Python语言实现部分：

from math import sqrt


def primes(n):
    results = [1,]
    for i in range(2, n):
        for j in range(2, int(sqrt(i))):
            if i % j == 0:
                break
        else:
            results.append(i)
    return results


def main():
    primes(3000000)

if __name__ == '__main__':
    main()

我对这段代码做个简单的解释，代码分为三个部分：第一段是功能的主题，负责完成主要功能；第二段是主函数定义，就只是一个对primes的调用而已；第三段是实现运行当前文件的时候自动调用main函数。所有的功能都在primes函数里面，这个函数在一个数字n的范围内，求出所有这个范围内的素数的列表。1是公认的素数，所以我们直接加入到列表中。以下数字从2开始直到n，我们给所有的数字i挨个除以2直到它的平方根。如果都不能整除就跳出循环并把结果加入到素数列表中。这稍微解释下为社么不是算到i而是算到i的平方根，因为如果直到i的平方根都不能整除的话，那后面的数字也都不能整除，所以不必要都验证，这样能在算法上节约很多计算资源，使计算过程快很多。

以上代码是计算300万以内的素数列表，我们先使用Python原生方式来执行看一下需要多少时间。

time python primes.py

real    0m12.171s
user    0m11.828s
sys     0m0.344s

大概需要12秒多的时间，我们下一步要直接使用Cython来运行一下这个Python代码，看看能快多少？

直接使用Cython来运行Python

在上面的Python原生代码执行中，我们已经得到了一个时间，在这一步我们要直接使用Cython直接运行不加修改的Python代码看看能提高多少。在这一步之前我们要先安装Cython：

pip install cython

使用Cython的步骤大概是三步：

把primes.py改为primes.pyx

from math import sqrt


def primes(n):
  results = [1,]
  for i in range(2, n):
      for j in range(2, int(sqrt(i))):
          if i % j == 0:
              break
      else:
          results.append(i)
  return results


def main():
  primes(3000000)

if __name__ == '__main__':
  main()

增加一个setup.py文件

from distutils.core import setup
from Cython.Build import cythonize

setup(
  ext_modules = cythonize('primes.pyx')
)

把Python编译为二进制代码，

python setup.py build_ext --inplace

这一步会产生一些c源文件和编译产生的动态链接库文件。

ls
build  primes.c  primes.cpython-38-x86_64-linux-gnu.so  primes.py  primes.pyx  setup.py

具体步骤会在后面解释的。

运行

time python -c "import primes; primes.main()"
real    0m7.501s
user    0m7.281s
sys     0m0.234s

在以上步骤中，有三个重要的过程

把pyx文件编译成调用了Python源码的C/C++代码primes.c
把C代码编译成动态链接库primes.cpython-38-x86_64-linux-gnu.so
使用Python直接调用动态链接库。

由以上的步骤的执行结果来看，并没有提高太多，只大概提交了一倍的速度，这是因为Python的运行速度慢除了因为是解释执行以外还有一个最重要的原因是Python是动态类型语言，每个变量在运行前是不直到类型是什么的，所以即便编译为二进制代码同样速度不会太快，这时候我们需要深度使用Cython来给Python提速了，就是使用Cython来指定Python的数据类型。

使用Cython改进的静态类型指定

这一步不同就是primes.pyx文件和以上的文件不同，我们在其中加入类型指定的代码：

from math import sqrt


def primes(int n):
    cdef int i, j
    results = [1,]
    for i in range(2, n):
        for j in range(2, int(sqrt(i))):
            if i % j == 0:
                break
        else:
            results.append(i)
    return results


def main():
    primes(3000000)

if __name__ == '__main__':
    main()

其中的代码只有两处不同：

函数参数的类型指定：int n
函数中使用最频繁的两个变量的类型指定：cdef int i, j
再运行以上的相同步骤得到这次的运行结果：

time python -c "import primes; primes.main()"

real    0m0.799s
user    0m0.734s
sys     0m0.063s

速度大概是原生Python的15倍左右，这只是在把Python代码中常用的几个变量改为静态类型的情况下，如果把更多的变量和函数的返回值等都改为Cython的静态类型后，性能一般能提升到原来的20-30倍。

后记

Python是一个很好用的语言，效率问题大多数情况下可以通过横向增加计算资源或者其他方式来弥补效率的不足。极少数情况下是需要使用一些手段来提高语言的运行效率。除了以上介绍的cython以外还有其他方案：pypy和Shed Skin等解决方案，在以后的文档中会分享其他的解决方案。