前阵子用两种方法实现了一个算法,第一个方法只用CPU完成计算,第二个方法用到了GPU。被运行结果吓了一跳,GPU比我单机CPU跑的程序快了一百倍。既然并行计算对性能的提升真不是盖的,于是决定把CPU的程序也改成并行的。今天简单介绍一下Linux下用C++开发并行程序的方法。
使用C++在Linux下开发并行程序要调用一个头文件,它里面提供了很多实现并行运算的函数。调用它的方法就是在文件开头添加:
#include
有了这个头文件之后,就可以开始我们的C++并行化之旅了。
首先,我觉得有必要看看服务器上有多少个CPU。方法很简单,pthread.h提供了一个函数叫sysconf(int),用它可以查看系统配置的参数。参数是_SC_NPROCESSORS_CONF的时候表示查看系统的CPU个数。于是我们可以写这样一个程序
#include”stdio.h”
#include”pthread.h”
int main(int argv, char* argc[])
{
cout<
return 0;
}
运行结果如下:
可以看出我用的服务器里面有32个CPU。给sysconf()传其他的参数就可以查看系统相应的参数,有兴趣可以网上搜一下各种参数的介绍。
需要注意一点,使用pthread.h的时候需要在编译命令后面加–lpthread,否则的话编译器不能识别pthread.h里面的函数,就像下面这样:
我以前写过一篇介绍Linux编程基本知识的帖子,如果对上图中的命令不太理解的话可以参照一下。
pthread.h是利用函数实现多线程的:程序猿把需要线程完成的任务写成到一个函数里。如果直接运行这些函数,那么他们仍然像以前一样都是顺序执行的。但如果用pthread.h提供的方法去调用这个函数,它就会变成一个独立的线程了。下面举个栗子:
我们准备写两个线程,第一个线程显示十次:“我是一号线程”,另一个线程显示十次“我是二号线程”。可以想象,如果直接调用两个函数,我们会看到十次“我是一号线程”,然后看到紧接着的十个“我是二号线程”。如果我们用pthread.h提供的方法调用他们会有什么效果呢?直接看运行效果:
多看几次就更清楚了:
发现了吧,两个线程的执行顺序是不确定的。这就是并行计算的效果:各各线程之间独立运行,齐头并进。可以想象,如果能把一个大任务分解成若干独立的小任务,然后使用并行计算的方法,运算速度将会大大提高。
现在解释一下上面的例子是怎么实现的:
首先定义两个函数,task1和task2,他们是两个线程的主体,然后在main函数里使用pthread.h提供的方法调用task1和task2。产生新线程的方法可以被比喻成放风筝。在放风筝的时候,我们通过一根线来控制风筝,以防止它乱飞。同样,我们也不希望产生的线程乱运行,需要一根线来控制新的线程,pthread_t就是pthread.h提供给我们的控制线,它记录新线程的编号。顾名思义,pthread_create就是产生新线程的过程了。在上面的例子中,我们使用pthread_create把task1和task2变成了两个独立的线程,并用ThreadA和ThreadB记录他们的线程号。pthread_join的意思是main函数在此等待ThreadA和ThreadB记录的线程运行结束。