使用PBS(Torque集群管理软件,http://docs.adaptivecomputing.com/torque/4-1-4/help.htm#topics/commands/qmgr.htm)和maui调度软件
公司目前集群共包含4台计算节点(512集群+2T内存),可用存储空间460TB
1.命令提交
#!/bin/sh
#PBS -N JOB 指定作业名称
#PBS -l nodes=2:ppn=8,vmem=80m 节点数量以及所要的核数(示例为2节点*8核)
#PBS -o %JOBID.out 指定作业完成后的输出文件
#PBS -e %JOBID.err 指定作业出现错误的输出文件
#PBS -l walltime=120:00:00 作业处于运行状态的最长时间
#PBS -q batch 指定作业队列
#PBS -m abe 发送邮件参数(n:不发送邮件;a:作业被批处理系统中断时;b: 作业开始执行时;e:作业执行结束时)
#PBS -M YYY@simceredx.com 邮件列表
PBS -l 指定作业所需要的资源,设定对可消耗资源的限制 :
cput: 作业的所有进程使用cpu最长时间
file:作业可以建立单个文件大小的最大限制
pcput:作业的单个进程可以使用CPU的最长时间
pmem:作业的单个进程可以使用的物理内存的最大值
pvmem:作业的单个进程可以使用的虚拟内存的最大值
vmem:作业可以使用的物理内存的最大值
walltime:作业处于运行状态的最长时间
arch:指定系统管理员所定义的系统结构类型
nodes:指定作业独占使用的节点数目和属性,使用“+”可连接多种节点定义;缺省为1;ppn每个节点上的进程数,缺省1
ncpus : 请求cpu数量
2.状态查询
qstat -a 已经提交的作业状态信息
qstat -q 节点池状态 (C:作业完成;E:作业退出;H:作业挂起中; Q:作业排队中; T:作业被移走;W:作业等待中;S:作业中断)
qstat -f 4016.manage1 作业的详细信息
qstat -n 查看任务信息(含所在节点信息)
- 作业操作
qhold ##挂起作业,排队状态中的作业,运行中不能挂起
qrls ##释放挂起的作业
qalter ##更改作业属性
qdel ##删除作业
qsub -l nodes=node01,mem=200mb /home/user/script.sh ##指定node01,直到有需要的资源
mjobctl -s 4127 ##暂停作业
mjobctl -r 4127 ##恢复作业
setspri 优先值 JOBID� ##表示将JOBID的任务的优先值修改为现在的优先值,优先值在0-1000之内
setspri -r 优先值 JOBID� ##这样表示在现有的优先值的基础上加上或者减去指定的优先值,优先值的范围在+/- 1000000000
Torque中的命令:�qalter -p 优先值 JOBID� ##表示将JOBID的优先值设置为指定的优先值,优先值的范围在-1024~1023
mjobctl -s 82 ##maui 暂停作业状态,插入后续Q作业,如无后续作业,状态自动转为R
mjobctl –r 82 ##resume job