最新消息:非无江海志,潇洒送日月

Torque安装部署以及使用方法详解

编程开发 江海志 1159浏览 0评论

总结:

1、安装系统

2、修改/etc/hosts文件将计算节点服务节点对应的IP加入其中,此处不加则无法进行通信

3、关闭防火墙service iptables stop,此处不停止则无法进行通信

4、安装Torque并将生成的*.sh packet放到各个计算节点中,在计算节点中安装。

5、计算节点需要手动配置config文件,之后再启动pbs_mom,此处不加则pbsnodes时状态始终为down,state = down

6、启动master节点pbs_server,pbs_sched

7、提交任务,查看任务,结束

详细信息可参考我下面写的内容或http://www.clusterresources.com/torquedocs21/1.2basicconfig.shtml

环境配置:

Fedora12  ISO 下载

http://download.chinaunix.NET/down.PHP?id=31289&ResourceID=12802&site=6

torque-4.1.2 下载

http://www.adaptivecomputing.com/resources/downloads/torque/ 最新的安装包,这里使用的是4.1.2版本,文件名是torque-4.1.2.tar.gz。

安装

  1. $ ./configure
  2. $ make
  3. $ sudo make install
  4. $ make packages (用来产生在其它机器上安装用的安装包,运行完后会生成几个torque-package-*.sh文件)
安装后,查看环境变量“PATH”,确保/usr/local/bin和/usr/local/sbin在“PATH”里面。
切换到root用户
  1. # echo ‘/usr/local/lib’ > /etc/ld.so.conf.d/torque.conf
  2. # ldconfig

初始化与配置

  1. # ./torque.setup <user>  //<user> 替换为非root用户即可

启动停止服务

这里需要说明一下,Torque主要是由三个主要部件组成
pbs_server  PBS服务守护进程,负责接收作业提交,位于服务节点上
pbs_sched  PBS调度守护进程,负责调度作业,位于服务节点上
pbs_mom  PBS MOM守护进程, 负责监控本机并执行作业,位于所有计算节点上

可以使用下面命令来启动Torque服务

  1. $ sudo pbs_server   //在服务器节点执行
  2. $ sudo pbs_sched   //在服务器节点执行
  3. $ sudo pbs_mom  //在计算节点执行
  4. $ sudo trqauthd

另外Torque也提供了一些脚本,可以使用linux的service来启动停止Torque,方法就是将Torque目录下的下面几个文件复制到/etc/init.d目录下,如下:

  1. $ sudo cp contrib/init.d/pbs_server /etc/init.d/
  2. $ sudo cp contrib/init.d/pbs_sched /etc/init.d/
  3. $ sudo cp contrib/init.d/pbs_mom /etc/init.d/
  4. $ sudo cp contrib/init.d/trqauthd /etc/init.d/

然后就可以使用下面命令来启动停止服务了

  1. $ sudo /etc/init.d/pbs_server start|stop|status
  2. $ sudo /etc/init.d/ pbs_sched start|stop|status
  3. $ sudo /etc/init.d/ pbs_mom start|stop|status
  4. $ sudo /etc/init.d/ trqauthd start|stop|status

测试
1. 在master机器上写一个测试脚本/opt/test/sleep.sh, 内容如下

  1. #!/bin/sh
  2. sleep 600

2. 提交作业

  1. $ qsub /opt/test/sleep.sh

3. 检查作业

  1. $ qstat -a -n

此时可以看到各个作业的运行状态。

假定“单机安装运行PBS (Torque)”中安装的机器作为master,下面来向cluster添加新的nodes。这里假定新加入nodes的机器名是host1和host2。

安装

1. 将master机器上生成的torque-package-*.sh文件复制到host1和host2上,host1和host2分别为计算机的名称,同时将host1和host2加入/etc/hosts
如 IP1 host1;IP2 host2
2. 分别在host1和host2上运行下面命令执行安装
  1. $ ./torque-package-mom-*.sh –install
  2. $ ./torque-package-clients-*.sh –install

启动停止服务

1. 分别在host1和host2上运行下面命令启动mom服务

$TORQUEHOME = /var/spool/torque,在mom_priv目录下新建一个config文件,加入下面的代码,同时将master及对应的IP地址加入计算节点的/etc/hosts文件中。

$TORQUEHOME/mom_priv/config:

$pbsserver      master            # note: hostname running pbs_server
$logevent       255               # bitmap of which events to log

 

  1. $ sudo /usr/local/sbin/pbs_mom

2. 在master机器上添加节点

  1. $ qmgr -c ‘create node host1 np=2’
  2. $ qmgr -c ‘create node host2 np=2’

添加完成后可以在master机器上使用qnodes命令查看,此时看到的新加入的两个节点state应该是offline。

3. 在master机器上重启服务使修改生效

  1. $ sudo /etc/init.d/pbs_server restart

再次在master机器上运行qnodes查看新加入节点状态,此时state变成了free,这说明新加入的节点已经生效可以使用了。

测试

1. 在master机器上写一个测试脚本/opt/test/sleep.sh, 内容如下

  1. #!/bin/sh
  2. sleep 600

2. 提交作业 (可以多提交一些,来检查是不是作业被分发到新添加的机器上运行了,比如运行下面的命令15次)

  1. $ qsub /opt/test/sleep.sh

3. 检查作业

  1. $ qstat -a -n

此时可以看到各个作业是在那个机器上运行的。

在安装Torque4.1.2之后,运行”sudo ./torque.setup <user>”有时候出现下面的错误

  1. ================================================================================
  2. initializing TORQUE …
  3. You have selected to start pbs_server in create mode.
  4. If the server database exists it will be overwritten.
  5. do you wish to continue y/(n)?y
  6. root     28100     1  1 04:03 ?        00:00:00 pbs_server -t create
  7. Max open servers: 9
  8. qmgr obj= svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  9. Max open servers: 9
  10. qmgr obj= svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  11. qmgr obj= svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  12. qmgr obj= svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  13. qmgr obj= svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  14. qmgr obj=batch svr=default: Unauthorized Request  MSG=error in permissions (PERM_MANAGER)
  15. qmgr obj=batch svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  16. qmgr obj=batch svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  17. qmgr obj=batch svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  18. qmgr obj=batch svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  19. qmgr obj=batch svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  20. qmgr obj= svr=default: Unauthorized Request  MSG=error in permissions (PERM_OPorMGR)
  21. ================================================================================

 

解决方法:修改/etc/hosts文件,将当前机器IP和机器名添加进去

比如添加前配置信息如下

  1. 127.0.0.1       localhost.localdomain   localhost
  2. ::1     localhost6.localdomain6 localhost6

修改后配置后如下

  1. 127.0.0.1       localhost.localdomain   localhost
  2. ::1     localhost6.localdomain6 localhost6
  3. 192.168.0.100          myhost

转载请注明:江海志の博客 » Torque安装部署以及使用方法详解

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址