作者:Limber Cheng
因为实习的原因,写了一点关于并行计算的东西,当然用的是CUDA。
今天想说说自己对并行计算的一点浅显认识
以前一直以为,并行计算嘛,就是fork出进程然后各干各的,最后汇总下结果。也就是计算中的if的同步进行,这一点在我的Variational Inference(变分推理)中用起来简直是不要太美好。
VI比蒙特卡洛瞎猜(用大量的模拟实验强行逼出某个分布律,因为过于暴力被我吐槽为蒙特卡洛瞎猜)好很多。而也就是VI,与并行计算配合起来出现了1+1大于2,甚至大于100、1000的情况。VI的核心是通过一组分布关系,有的时候结合KL Divergence(一种能判定差异性的工具吧?比如判定人和人的差异与人和狗的差异。)来进行辅助。
大概可以这样理解(比喻略有出入),假如在识别物体这个任务上(通过相机进行图片识别),首先并行运算的一开始我们就将某集合与某集合(比如相机范围内出现人与木桩子与狗),一波的浪操作把数据弄到我这儿来。嗯很好,然后我用并行操作进行操作,这一打数据怼进去,那么这个时候,我可以同时进行人与木桩子比,木桩子与狗比,狗与人比的比较过程。如果真的只是fork出来然后各干各,可能也就是以前速度的1/3罢了。但是问题是不是这样子的!打个比方就是人与狗比较的一开始的时候(你可以理解为人与狗比较的过程有很多步骤),有一种感觉,嗯,这个玩意很像人。然后嗖的一下去了别的小伙伴那边说——弟兄们,我觉得是人的几率比较大。然后这个时候,对比狗与木桩子的任务的小伙伴表示,啥玩意儿?去你妈的那我做个卵啊?然后就去帮人与木桩子、狗与人的比较了。这样的话,资源运用的效率是不是会提升更多?
确实,实际中并行计算往往并非是完全独立的。相反,各个进程之间往往需要各种同步和交流机制。这在一定程度上对编程能力提出了巨大挑战。一方面需要对任务进行分块,另一方面需要自己控制好同步和交流的节奏(弄不好就出现计算结果飘忽不定的情况)。也就是说,原来在串行程序中根本不会出现的资源读写问题,到了并行程序里可能就会成为大问题。许多事情都需要自己手动控制好,就算再有耐心的程序猿看到了也会有些抓狂。只能寄希望以后某一天编译器可以变得足够智能,把苦逼的程序猿解放出来。另外不得不说,
这一点pycuda的封装做得很好,反正我觉得很好用,并且我比较喜欢Python,只是我没比较过性能上的差异。为了写项目啊,我不得不重拾很久都没碰过的c语言。嗯,指针真是个好东西,有时候真是无比怀念啊......不过,数组越界的问题,完全靠自觉了......唉,凡事都是有得有失。不过我觉得自己应该不会再用c来并行计算了,如果可以,我还是更愿意用一些高层的语言来写,尽管性能上可能会有些损失,但是,相比调试上所花的时间精力来说,值了。
关于这篇文章:
“这篇文章由我一位目前在英伟达实习的同学撰写,我现在代其将这篇文章整理后发布在这里,著作权归原作者所有。”