同步操作将从 wanghuiic/demo-ansible 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
说明:部署环境是CentOS 7.5。更高版本的CentOS 7.x应该也可以。
slurm节点一般是物理机。测试可以用虚拟机。建议至少三个slurm节点。
deploy节点负责构建deploy环境和运行ansible。ansible只需要位于deploy节点,但不必提前手动安装ansible。deploy节点可以跟slurm共用同一个节点,但非必须。
mariadb节点部署的是mariadb-server。不要提前手动安装mysql。
提前在各个节点之间建立ssh互信。
在deploy节点执行。
# make
# make install
slurm部署配置文件位于 examples/slurmtest/,该目录下的文件需要进一步编辑。
注意:本项目是从kolla移植来的,部分无用的代码没有移除。
enable_slurm 设置为 yes
enable_mariadb 设置为 yes
enable_slurmrestd 设置为 yes
enable_host_ntp 建议设置为 yes
slurmdbd_database_address slurmdbd数据库服务器IP地址。
如果用OpenStack云主机作为slurmdbd节点,将slurmdbd_database_address设置为云主机的fixed ip地址。
主要的group如下
建议 mariadb slurmservers slurmdbdservers slurmrestservers 都用一个节点。
mariadb:vars 变量的含义
slurm:vars 变量的含义
如果部署在OpenStack云主机上,须注意安全组的设置。需要打开的端口有:
其中6820端口需要开放给外部网络。其他端口开放给slurm集群内部访问。
目前没有实现用户统一管理,例如通过ypserv。 但在所有slurm节点创建一致的用户slurmtest01,slurmtest02。
# sudo make test
或者直接执行
./test.sh slurmtest
[root@host-144-12 ~]# srun -N4 -n4 -l hostname
0: host-144-12
3: host-144-16
2: host-144-15
1: host-144-14
在slurm control节点创建一个hosts文件,例如,获取机器列表
# srun -N-99999 hostname |sort -n |tee hosts
host-144-12
host-144-14
host-144-15
host-144-16
通常在所有计算节点都要部署计算程序
运行一个简单测试calc-pi.sh
[slurmtest01@i-slurm-1 mpitest]$ whoami
slurmtest01
[slurmtest01@i-slurm-1 mpitest]$ pwd
/home/slurmtest01/mpitest
[slurmtest01@i-slurm-1 mpitest]$ sbatch calc-pi.sh
Submitted batch job 24
[slurmtest01@i-slurm-1 mpitest]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
24 debug CalcPi slurmtes R 0:02 3 i-slurm-[1-3]
[slurmtest01@i-slurm-1 mpitest]$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
[slurmtest01@i-slurm-1 mpitest]$ cat logs/job.24.out
Elapsed time = 15.329501 seconds
Pi is approximately 3.1415788983418094, Error is 0.0000137552479837
在slurm控制节点执行
# scontrol token lifespan=31536000 username=root
记下获取到的token。
然后到客户端节点测试REST API
[root@gb21 ~]# token=eyJ...ONY
[root@gb21 ~]# server=10.10.144.12
[root@gb21 ~]# user=root
[root@gb21 ~]# curl -X GET \
-H "X-SLURM-USER-NAME:$user" \
-H "X-SLURM-USER-TOKEN:$token" \
http://$server:6820/openapi/v3/
demo_ansible/ demo_ansible的python包
tools/demo-ansible 命令行脚本工具
example/ 工作目录,在其中创建子目录,并保存特定部署的配置文件globals.yml等
test.sh 测试脚本,多个action的执行
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。