高性能计算(High Performance Computing,HPC)集群, 简称集群,是将多个计算机节点用高速网络相连,通过统一调度计算资源和计算任务,从而实现大规模的并行计算。为了应对大数据的挑战,我们必须要熟悉HPC的使用,并掌握编写并行程序的技巧。从今天起,Rapp将推出【bioHPC】系列文章,和大家分享如何开发基于高性能计算集群的生物信息学分析流程。
我开发的bioHPC将会努力做到以下几点:
- 自动化运行(从raw data到work report,只需一行命令就能搞定)
- 可重复性(精确的版本控制,确保任何结果都可以重复)
- 可迁移性(分析流程可以快速迁移到不同的计算平台)
- 可扩展性(充分利用HPC的计算资源,实现成百上千个样本并行计算的能力)
- 可读性(代码简洁易懂,便于二次开发)
虽然HPC的应用已经十分广泛,但是对于普通用户来说,能够在真正的集群上运行自己编写的程序还是比较困难。就算有集群账户,如果不是管理员,很多软件安装和系统配置的任务也无法完成。为了方便学习和测试,我决定用虚拟机在自己的电脑上创建一个虚拟集群,虽然CPU和内存会受到一些限制,但是对于学习和测试来说,已经够用了。等熟练掌握后,就可以到真实的环境中一显身手了。
Rapp曾经介绍过如何安装VirtualBox(如何在3分钟内打造一个完美的R工作平台)。当时使用的虚拟机是单机桌面版,这次我们要一次安装多个虚拟机,而且不需要进入图形界面。
我们借助的工具就是Vagrant,它可以使虚拟机的安装更加方便。难点主要在如何修改Vagrantfile中的配置。有不明白的地方可以查看Vagrant的官方文档。
在创建虚拟集群的时候,我们需要在每个虚拟机上分别安装所需要的软件(如SGE)并修改一些配置信息,这个过程并不需要手工完成,可以通过Vagrant 的 provision 功能来批量实现。
不了解Vagrant的读者可以从Github上下载我写的源代码(vSGE),直接使用我写的Vagrantfile。我配置了1个master节点和5个worker节点,每个节点有2个CPU和2G内存。
创建虚拟集群分以下几个步骤:
-
安装 Vagrant 和 VirtualBox
具体方法见Vagrant和VirtualBox的官网
https://www.vagrantup.com/downloads.html
https://www.virtualbox.org/wiki/Downloads
从我的Github上下载源代码(vSGE)
可以用git clone命令,或者点击网页上的Clone or download 按钮,再点击Download ZIP
git clone https://github.com/bioxfu/vSGE
- 运行
这一步比较耗时间,建议你起来活动一下,喝杯咖啡:)
cd vSGE
vagrant up
- 测试
- 登录master节点
- 用qsub命令批量提交30个任务 (test.sh)
- 脚本的标准输出(stdout)和标准错误(stderr)重定向到 /vagrant目录下
- 每个虚拟机可以通过各自的/vagrant目录和本地系统的当前目录(vSGE)共享文件
vagrant ssh master
for i in `seq 1 30`; do qsub -b y -o /vagrant/out.txt -e /vagrant/err.txt "bash /vagrant/test.sh"; done
用qstat命令查看任务运行状态:
qstat -f
可以看到每个节点都被分配了6个任务。
qstat -f
此时,任务已全部完成。
接下来,在本地系统的当前目录下(vSGE)查看输出文件:
测试成功!
虚拟集群已经成功创建完毕,我们离bioHPC的目标又前进了一小步。预知后事如何,且听下回分解。