CUDA GPU编程

原文链接：https://zhuanlan.zhihu.com/p/77307505
Python是当前最流行的编程语言，被广泛应用在深度学习、金融建模、科学和工程计算上。作为一门解释型语言，它运行速度慢也常常被用户诟病。著名Python发行商Anaconda公司开发的Numba库为程序员提供了Python版CPU和GPU编程工具，速度比原生Python快数十倍甚至更多。使用Numba进行GPU编程，你可以享受：

Python简单易用的语法；

极快的开发速度；

成倍的硬件加速。

为了既保证Python语言的易用性和开发速度，又达到并行加速的目的，本系列主要从Python的角度给大家分享GPU编程方法。关于Numba的入门可以参考我的另一篇文章。更加令人兴奋的是，Numba提供了一个GPU模拟器，即使你手头暂时没有GPU机器，也可以先使用这个模拟器来学习GPU编程！

本系列为英伟达GPU入门介绍的第二篇，主要介绍CUDA编程的基本流程和核心概念，并使用Python Numba编写GPU并行程序。为了更好地理解GPU的硬件架构，建议读者先阅读我的第一篇文章。

GPU硬件知识和基础概念：包括CPU与GPU的区别、GPU架构、CUDA软件栈简介。

GPU编程入门：主要介绍CUDA核函数，Thread、Block和Grid概念，并使用Python Numba进行简单的并行计算。

GPU编程进阶：主要介绍一些优化方法。

GPU编程实践：使用Python Numba解决复杂问题。

初识GPU编程

兵马未动，粮草先行。在开始GPU编程前，需要明确一些概念，并准备好相关工具。

CUDA是英伟达提供给开发者的一个GPU编程框架，程序员可以使用这个框架轻松地编写并行程序。本系列第一篇文章提到，CPU和主存被称为主机（Host），GPU和显存（显卡内存）被称为设备（Device），CPU无法直接读取显存数据，GPU无法直接读取主存数据，主机与设备必须通过总线（Bus）相互通信。

GPU和CPU架构

在进行GPU编程前，需要先确认是否安装了CUDA工具箱，可以使用echo $CUDA_HOME检查CUDA环境变量，返回值不为空说明已经安装好CUDA。也可以直接用Anaconda里的conda命令安装CUDA：

$ conda install cudatoolkit

然后可以使用nvidia-smi命令查看显卡情况，比如这台机器上几张显卡，CUDA版本，显卡上运行的进程等。我这里是一台32GB显存版的Telsa V100机器。

nvidia-smi命令返回结果

安装Numba库：

$ conda install numba

检查一下CUDA和Numba是否安装成功：

fromnumbaimportcudaprint(cuda.gpus)

如果上述步骤没有问题，可以得到结果：<Managed Device 0>...。如果机器上没有GPU或没安装好上述包，会有报错。CUDA程序执行时会独霸一张卡，如果你的机器上有多张GPU卡，CUDA默认会选用0号卡。如果你与其他人共用这台机器，最好协商好谁在用哪张卡。一般使用CUDA_VISIBLE_DEVICES这个环境变量来选择某张卡。如选择5号GPU卡运行你的程序。

CUDA_VISIBLE_DEVICES='5'python example.py

如果手头暂时没有GPU设备，Numba提供了一个模拟器，供用户学习和调试，只需要在命令行里添加一个环境变量。

Mac/Linux:

exportNUMBA_ENABLE_CUDASIM=1

Windows:

SETNUMBA_ENABLE_CUDASIM=1

需要注意的是，模拟器只是一个调试的工具，在模拟器中使用Numba并不能加速程序，有可能速度更慢，而且在模拟器能够运行的程序，并不能保证一定能在真正的GPU上运行，最终还是要以GPU为准。

有了以上的准备工作，我们就可以开始我们的GPU编程之旅了！

GPU程序与CPU程序的区别

一个传统的CPU程序的执行顺序如下图所示：

CPU程序执行流程

CPU程序是顺序执行的，一般需要：

初始化。

CPU计算。

得到计算结果。

在CUDA编程中，CPU和主存被称为主机（Host），GPU被称为设备（Device）。

GPU程序执行流程

当引入GPU后，计算流程变为：

初始化，并将必要的数据拷贝到GPU设备的显存上。

CPU调用GPU函数，启动GPU多个核心同时进行计算。

CPU与GPU异步计算。

将GPU计算结果拷贝回主机端，得到计算结果。

一个名为gpu_print.py的GPU程序如下所示：

fromnumbaimportcudadefcpu_print():print("print by cpu.")@cuda.jitdefgpu_print():# GPU核函数print("print by gpu.")defmain():gpu_print[1,2]()cuda.synchronize()cpu_print()if__name__=="__main__":main()

使用CUDA_VISIBLE_DEVICES='0' python gpu_print.py执行这段代码，得到的结果为：

print by gpu.

print by cpu.

与传统的Python CPU代码不同的是：

使用from numba import cuda引入cuda库

在GPU函数上添加@cuda.jit装饰符，表示该函数是一个在GPU设备上运行的函数，GPU函数又被称为核函数。

主函数调用GPU核函数时，需要添加如[1, 2]这样的执行配置，这个配置是在告知GPU以多大的并行粒度同时进行计算。gpu_print[1, 2]()表示同时开启2个线程并行地执行gpu_print函数，函数将被并行地执行2次。下文会深入探讨如何设置执行配置。

GPU核函数的启动方式是异步的：启动GPU函数后，CPU不会等待GPU函数执行完毕才执行下一行代码。必要时，需要调用cuda.synchronize()，告知CPU等待GPU执行完核函数后，再进行CPU端后续计算。这个过程被称为同步，也就是GPU执行流程图中的红线部分。如果不调用cuda.synchronize()函数，执行结果也将改变，"print by cpu.将先被打印。虽然GPU函数在前，但是程序并没有等待GPU函数执行完，而是继续执行后面的cpu_print函数，由于CPU调用GPU有一定的延迟，反而后面的cpu_print先被执行，因此cpu_print的结果先被打印了出来。

Thread层次结构

前面的程序中，核函数被GPU并行地执行了2次。在进行GPU并行编程时需要定义执行配置来告知以怎样的方式去并行计算，比如上面打印的例子中，是并行地执行2次，还是8次，还是并行地执行20万次，或者2000万次。2000万的数字太大，远远多于GPU的核心数，如何将2000万次计算合理分配到所有GPU核心上。解决这些问题就需要弄明白CUDA的Thread层次结构。

并行执行8次的执行配置

CUDA将核函数所定义的运算称为线程（Thread），多个线程组成一个块（Block），多个块组成网格（Grid）。这样一个grid可以定义成千上万个线程，也就解决了并行执行上万次操作的问题。例如，把前面的程序改为并行执行8次：可以用2个block，每个block中有4个thread。原来的代码可以改为gpu_print[2, 4]()，其中方括号中第一个数字表示整个grid有多少个block，方括号中第二个数字表示一个block有多少个thread。

实际上，线程（thread）是一个编程上的软件概念。从硬件来看，thread运行在一个CUDA核心上，多个thread组成的block运行在Streaming Multiprocessor（SM的概念详见本系列第一篇文章），多个block组成的grid运行在一个GPU显卡上。

软硬件对应关系

CUDA提供了一系列内置变量，以记录thread和block的大小及索引下标。以[2, 4]这样的配置为例：blockDim.x变量表示block的大小是4，即每个block有4个thread，threadIdx.x变量是一个从0到blockDim.x - 1（4-1=3）的索引下标，记录这是第几个thread；gridDim.x变量表示grid的大小是2，即每个grid有2个block，blockIdx.x变量是一个从0到gridDim.x - 1（2-1=1）的索引下标，记录这是第几个block。

CUDA内置变量示意图

某个thread在整个grid中的位置编号为：threadIdx.x + blockIdx.x * blockDim.x。

使用内置变量计算某个thread编号

利用上述变量，我们可以把之前的代码丰富一下：

fromnumbaimportcudadefcpu_print(N):foriinrange(0,N):print(i)@cuda.jitdefgpu_print(N):idx=cuda.threadIdx.x+cuda.blockIdx.x*cuda.blockDim.xif(idx<N):print(idx)defmain():print("gpu print:")gpu_print[2,4](8)cuda.synchronize()print("cpu print:")cpu_print(8)if__name__=="__main__":main()

执行结果为：

gpu print:

cpu print:

这里的GPU函数在每个CUDA thread中打印了当前thread的编号，起到了CPU函数for循环同样的作用。因为for循环中的计算内容互相不依赖，也就是说，某次循环只是专心做自己的事情，循环第i次不影响循环第j次的计算，所以这样互相不依赖的for循环非常适合放到CUDA thread里做并行计算。在实际使用中，我们一般将CPU代码中互相不依赖的的for循环适当替换成CUDA代码。

这份代码打印了8个数字，核函数有一个参数N，N = 8，假如我们只想打印5个数字呢？当前的执行配置共2 * 4 = 8个线程，线程数8与要执行的次数5不匹配，不过我们已经在代码里写好了if (idx < N)的判断语句，判断会帮我们过滤不需要的计算。我们只需要把N = 5传递给gpu_print函数中就好，CUDA仍然会启动8个thread，但是大于等于N的thread不进行计算。注意，当线程数与计算次数不一致时，一定要使用这样的判断语句，以保证某个线程的计算不会影响其他线程的数据。

线程数与计算次数不匹配

Block大小设置

不同的执行配置会影响GPU程序的速度，一般需要多次调试才能找到较好的执行配置，在实际编程中，执行配置[gridDim, blockDim]应参考下面的方法：

block运行在SM上，不同硬件架构（Turing、Volta、Pascal...）的CUDA核心数不同，一般需要根据当前硬件来设置block的大小blockDim（执行配置中第二个参数）。一个block中的thread数最好是32、128、256的倍数。==注意，限于当前硬件的设计，block大小不能超过1024。==

grid的大小gridDim（执行配置中第一个参数），即一个grid中block的个数可以由总次数N除以blockDim，并向上取整。

例如，我们想并行启动1000个thread，可以将blockDim设置为128，1000 ÷ 128 = 7.8，向上取整为8。使用时，执行配置可以写成gpuWork[8, 128]()，CUDA共启动8 * 128 = 1024个thread，实际计算时只使用前1000个thread，多余的24个thread不进行计算。

注意，这几个变量比较容易混淆，再次明确一下：blockDim是block中thread的个数，一个block中的threadIdx最大不超过blockDim；gridDim是grid中block的个数，一个grid中的blockIdx最大不超过gridDim。

以上讨论中，block和grid大小均是一维，实际编程使用的执行配置常常更复杂，block和grid的大小可以设置为二维甚至三维，如下图所示。这部分内容将在下篇文章中讨论。

Thread Block Grid

内存分配

前文提到，GPU计算时直接从显存中读取数据，因此每当计算时要将数据从主存拷贝到显存上，用CUDA的术语来说就是要把数据从主机端拷贝到设备端。CUDA强大之处在于它能自动将数据从主机和设备间相互拷贝，不需要程序员在代码中写明。这种方法对编程者来说非常方便，不必对原有的CPU代码做大量改动。

我们以一个向量加法为例，编写一个向量加法的核函数如下：

@cuda.jitdefgpu_add(a,b,result,n):# a, b为输入向量，result为输出向量# 所有向量都是n维# 得到当前thread的索引idx=cuda.threadIdx.x+cuda.blockDim.x*cuda.blockIdx.xifidx<n:result[idx]=a[idx]+b[idx]

初始化两个2千万维的向量，作为参数传递给核函数：

n=20000000x=np.arange(n).astype(np.int32)y=2*xgpu_result=np.zeros(n)# CUDA执行配置threads_per_block=1024blocks_per_grid=math.ceil(n/threads_per_block)gpu_add[blocks_per_grid,threads_per_block](x,y,gpu_result,n)

把上述代码整合起来，与CPU代码做对比，并验证结果正确性：

fromnumbaimportcudaimportnumpyasnpimportmathfromtimeimporttime@cuda.jitdefgpu_add(a,b,result,n):idx=cuda.threadIdx.x+cuda.blockDim.x*cuda.blockIdx.xifidx<n:result[idx]=a[idx]+b[idx]defmain():n=20000000x=np.arange(n).astype(np.int32)y=2*xgpu_result=np.zeros(n)cpu_result=np.zeros(n)threads_per_block=1024blocks_per_grid=math.ceil(n/threads_per_block)start=time()gpu_add[blocks_per_grid,threads_per_block](x,y,gpu_result,n)cuda.synchronize()print("gpu vector add time "+str(time()-start))start=time()cpu_result=np.add(x,y)print("cpu vector add time "+str(time()-start))if(np.array_equal(cpu_result,gpu_result)):print("result correct")if__name__=="__main__":main()

运行结果，GPU代码竟然比CPU代码慢10+倍！

gpu vector add time 13.589356184005737

cpu vector add time 1.2823548316955566

result correct

说好的GPU比CPU快几十倍上百倍呢？这里GPU比CPU慢很多原因主要在于：

向量加法的这个计算比较简单，CPU的numpy已经优化到了极致，无法突出GPU的优势，我们要解决实际问题往往比这个复杂得多，当解决复杂问题时，优化后的GPU代码将远快于CPU代码。

这份代码使用CUDA默认的统一内存管理机制，没有对数据的拷贝做优化。CUDA的统一内存系统是当GPU运行到某块数据发现不在设备端时，再去主机端中将数据拷贝过来，当执行完核函数后，又将所有的内存拷贝回主存。在上面的代码中，输入的两个向量是只读的，没必要再拷贝回主存。

这份代码没有做流水线优化。CUDA并非同时计算2千万个数据，一般分批流水线工作：一边对2000万中的某批数据进行计算，一边将下一批数据从主存拷贝过来。计算占用的是CUDA核心，数据拷贝占用的是总线，所需资源不同，互相不存在竞争关系。这种机制被称为流水线。这部分内容将在下篇文章中讨论。

原因2中本该程序员动脑思考的问题交给了CUDA解决，增加了时间开销，所以CUDA非常方便的统一内存模型缺点是计算速度慢。针对原因2，我们可以继续优化这个程序，告知GPU哪些数据需要拷贝到设备，哪些需要拷贝回主机。

fromnumbaimportcudaimportnumpyasnpimportmathfromtimeimporttime@cuda.jitdefgpu_add(a,b,result,n):idx=cuda.threadIdx.x+cuda.blockDim.x*cuda.blockIdx.xifidx<n:result[idx]=a[idx]+b[idx]defmain():n=20000000x=np.arange(n).astype(np.int32)y=2*x# 拷贝数据到设备端x_device=cuda.to_device(x)y_device=cuda.to_device(y)# 在显卡设备上初始化一块用于存放GPU计算结果的空间gpu_result=cuda.device_array(n)cpu_result=np.empty(n)threads_per_block=1024blocks_per_grid=math.ceil(n/threads_per_block)start=time()gpu_add[blocks_per_grid,threads_per_block](x_device,y_device,gpu_result,n)cuda.synchronize()print("gpu vector add time "+str(time()-start))start=time()cpu_result=np.add(x,y)print("cpu vector add time "+str(time()-start))if(np.array_equal(cpu_result,gpu_result.copy_to_host())):print("result correct!")if__name__=="__main__":main()

这段代码的运行结果为：

gpu vector add time 0.19940638542175293

cpu vector add time 1.132070541381836

result correct!

至此，可以看到GPU速度终于比CPU快了很多。

Numba对Numpy的比较友好，编程中一定要使用Numpy的数据类型。用到的比较多的内存分配函数有：

cuda.device_array()：在设备上分配一个空向量，类似于numpy.empty()

cuda.to_device()：将主机的数据拷贝到设备

ary=np.arange(10)device_ary=cuda.to_device(ary)

cuda.copy_to_host()：将设备的数据拷贝回主机

host_ary=device_ary.copy_to_host()

总结

Python Numba库可以调用CUDA进行GPU编程，CPU端被称为主机，GPU端被称为设备，运行在GPU上的函数被称为核函数，调用核函数时需要有执行配置，以告知CUDA以多大的并行粒度来计算。使用GPU编程时要合理地将数据在主机和设备间互相拷贝。

GPU程序执行流程

CUDA编程的基本流程为：

初始化，并将必要的数据拷贝到GPU设备的显存上。

使用某个执行配置，以一定的并行粒度调用CUDA核函数。

CPU和GPU异步计算。

将GPU计算结果拷贝回主机。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 205,132评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,802评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,566评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,858评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,867评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,695评论 1赞 282
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,064评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,705评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,915评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,677评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,796评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,432评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,041评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,992评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,223评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,185评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,535评论 2赞 343

CUDA GPU编程

推荐阅读更多精彩内容