Slurm22.11.2 入门教程01-Centos7.6 安装 Slurm


说明:

一. 集群环境搭建分为:【NTP】、【MUNGE】、【Slurm】

网络拓扑

计算机名称                IP地址                           角色

 master                     192.168.114.242           管理节点(master)

 compute1                 192.168.114.243           计算节点(compute1)

 compute2                 192.168.114.244           计算节点(compute1)


集群节点基本操作


关闭SELinux


         # vi /etc/sysconfig/selinux              #注释:修改内容

                SELINUX=disabled                                       

关闭 Firewall

          # systemctl stop firewalld.service

          # systemctl disable firewalld.service

          #vi /etc/hosts                               #注释:增加内容

                  192.168.114.242  slurm-master

                  192.168.114.243  slurm-compute1

                  192.168.114.244  slurm-compute2

          # reboot


创建 munge 和 slurm 用户

         # export MUNGEUSER=1001 && groupadd -g $MUNGEUSER munge

         # useradd  -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge  -s /sbin/nologin munge

        # export SLURMUSER=1002 && groupadd -g $SLURMUSER slurm

        # useradd  -m -c "SLURM workload manager" -d /var/lib/slurm -u $SLURMUSER -g slurm  -s /bin/bash slurm


安装依赖软件(NTP、MUNGE、Slurm 全部软件包安装)

         # yum install -y epel-release axel yum-axelget

         # yum install -y openssl openssl-devel pam-devel numactl numactl-devel hwloc hwloc-devel lua lua-devel readline-devel rrdtool-devel ncurses-devel man2html libibmad libibumad python3-pip perl-ExtUtils-MakeMaker gcc rpm-build json-c json-c-devel http-parser http-parser-devel mysql-devel libaio net-tools epel-release openssh-clients munge munge-libs munge-devel rng-tools 


集群节点安装 NTP

          # systemctl enable ntpd.service

          # ntpdate pool.ntp.org

          # systemctl start ntpd

          # rngd -r /dev/urandom


管理节点(master)安装 MUNGE

          # /usr/sbin/create-munge-key -r

          # dd if=/dev/urandom bs=1 count=1024 > /etc/munge/munge.key

          # chown munge: /etc/munge/munge.key && chmod 400 /etc/munge/munge.key

          # scp -p /etc/munge/munge.key root@192.168.114.243:/etc/munge                     #注释:同步到计算节点

          # scp -p /etc/munge/munge.key root@192.168.114.244:/etc/munge                    #注释:同步到计算节点


集群节点启动 MUNGE 服务

         # chown -R munge: /etc/munge/ /var/log/munge/ && chmod 0700 /etc/munge/ /var/log/munge/

         # systemctl enable munge

         # systemctl start munge

        # systemctl status munge


集群节点安装 Slurm

          # cd /usr/local

          # rpmbuild -ta --with mysql slurm-20.11.2.tar.bz2                                                  #注释:编译Slurm

          # cd /root/rpmbuild/RPMS/x86_64

         # yum localinstall slurm-*.rpm -y                                                                             #注释:安装Slurm


管理节点(master)配置 Slurm

          # cp /etc/slurm/slurm.conf.example /etc/slurm/slurm.conf

          # cp /etc/slurm/slurmdbd.conf.example /etc/slurm/slurmdbd.conf

          # cp /etc/slurm/cgroup.conf.example /etc/slurm/cgroup.conf

          # vi /etc/slurm/slurm.conf               #注释:替换内容

                  SlurmctldHost=slurm-master

                  SlurmctldPidFile=/var/run/slurmctld.pid

                  SlurmctldPort=6817

                  SlurmdPidFile=/var/run/slurmd.pid

                  SlurmdPort=6818

                  SlurmdSpoolDir=/var/spool/slurmd

                 SlurmUser=root

                 StateSaveLocation=/var/spool

                 ClusterName=cluster-slurm

                JobCompHost=slurm-master

                JobCompLoc=slurm_jobcomp_db

               JobCompPass=123456

               JobCompPort=3306

               JobCompType=jobcomp/mysql

               JobCompUser=root

               SlurmctldDebug=info

               SlurmctldLogFile=/var/log/slurm/slurmctld.log

               SlurmdDebug=info

               SlurmdLogFile=/var/log/slurm/slurmd.log

               NodeName=slurm-compute[1-2] CPUs=4 RealMemory=8192 State=UNKNOWN

               PartitionName=debug Nodes=slurm-compute[1-2] Default=YES MaxTime=INFINITE State=UP

         # vi /etc/slurm/slurmdbd.conf          #注释:替换内容

               AuthInfo=/var/run/munge/munge.socket.2

               AuthType=auth/munge

               DbdHost=slurm-master

              DebugLevel=info

              LogFile=/var/log/slurm/slurmdbd.log

              PidFile=/var/run/slurmdbd.pid

              SlurmUser=root

              StoragePass=123456

               StorageType=accounting_storage/mysql

              StorageUser=root

              StorageLoc=slurm_acct_db

        # vi /etc/slurm/cgroup.conf               #注释:替换内容

              CgroupAutomount=yes

              ConstrainCores=no

             ConstrainRAMSpace=no

        # scp -p /etc/slurm/slurm.conf root@192.168.114.243:/etc/slurm/                           #注释:同步到计算节点

        # scp -p /etc/slurm/slurm.conf root@192.168.114.244:/etc/slurm/

        # scp -p /etc/slurm/slurmdbd.conf root@192.168.114.243:/etc/slurm/                    #注释:同步到计算节点

        # scp -p /etc/slurm/slurmdbd.conf root@192.168.114.244:/etc/slurm/

        # scp -p /etc/slurm/cgroup.conf root@192.168.114.243:/etc/slurm/                        #注释:同步到计算节点

        # scp -p /etc/slurm/cgroup.conf root@192.168.114.244:/etc/slurm/


集群节点执行(创建slurm日志文件,slurm默认不创建)

        # mkdir /var/spool/slurmctld && chown slurm: /var/spool/slurmctld && chmod 755 /var/spool/slurmctld

        # mkdir /var/log/slurm && touch /var/log/slurm/slurmctld.log && chown slurm: /var/log/slurm/slurmctld.log

        # touch /var/log/slurm/slurm_jobacct.log /var/log/slurm/slurm_jobcomp.log && chown slurm: /var/log/slurm/slurm_jobacct.log /var/log/slurm/slurm_jobcomp.log

        # mkdir /var/spool/slurmd && chown slurm: /var/spool/slurmd && chmod 755 /var/spool/slurmd

        # touch /var/log/slurm/slurmd.log && chown slurm: /var/log/slurm/slurmd.log

        # touch /var/log/slurm/slurmdbd.log && chown slurm: /var/log/slurm/slurmdbd.log

       # touch /var/log/slurm/slurm.log && chown slurm: /var/log/slurm/slurm.log


管理节点(master)安装 Mysql

        # rpm -e --nodeps mariadb-devel-5.5.68-1.el7.x86_64 mariadb-libs-5.5.68-1.el7.x86_64

        # cd /usr/local

        # tar -xvf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar

        # rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm

        # rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm

        # rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm

        # rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm

        # rpm -ivh mysql-community-devel-5.7.28-1.el7.x86_64.rpm

        # rpm -ivh mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm

        # systemctl start mysqld.service

        # grep "password" /var/log/mysqld.log      # 查询mysql root初始密码

       # mysql -u root -p                                       # 登录 Msql

             # set global validate_password_policy=LOW;

             # set global validate_password_length=6;

             # ALTER USER 'root'@'localhost' IDENTIFIED BY '123456';

      创建slurm的数据库

             # create database slurm_acct_db;

             # create database slurm_jobcomp_db;

      设置主机访问虚拟机 mysql,如果不是在虚拟机中运行,请忽略

             # use mysql;

             # select host from user where user='root';

             # update user set host = '%' where user = 'root';

            # select host from user where user='root';

            # flush privileges;


管理节点(master)启动 Slurm 服务

          # systemctl enable slurmdbd.service

          # systemctl start slurmdbd.service

          # systemctl status slurmdbd.service

          # systemctl enable slurmctld.service

          # systemctl start slurmctld.service

          # systemctl status slurmctld.service


计算节点(compute)启动 Slurm 服务

         # systemctl enable slurmd.service

         # systemctl start slurmd.service

         # systemctl status slurmd.service

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,607评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,239评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,960评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,750评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,764评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,604评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,347评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,253评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,702评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,893评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,015评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,734评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,352评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,934评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,052评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,216评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,969评论 2 355

推荐阅读更多精彩内容