Administration du/des Cluster(s)

1. Marche/Arrêt du cluster

1.1. Mise en marche

En considérant l'état TOUT ETEINT, les étapes à suivre dans l'ordre sont :

  1. Mise en marche des switches Ethernet/Infiniband
  2. Mise en marche des silos et du serveur de fichiers (aum5)

  3. Mise en marche de la frontale d'administration BPLnuc

  4. Mise en marche de la frontale utilisateurs Summit2

  5. Mise en marche des nœuds
  6. Vérification de l'état des nœuds

1.1.1. Silos et serveur de fichiers aum5

Onduleurs allumés, on démarre dans cet ordre :

  1. Allumer les JBODs (baies de disque passives, sans cable réseau)
  2. Allumer les baies RAID (celles connectées au réseau) et les laisser identifier les disques durs
  3. Allumer le serveur de fichier aum5
  4. Vérifier l'état des volume LVM sur les serveurs (commande lvs)
  5. Monter les zones sur le serveur (utiliser fstab pour obtenir la liste)
  6. Démarrer le serveur nfs : systemctl start nfsserver.service

1.1.2. Frontale d'administration BPLnuc

La frontale BPLnuc repose sur une distribution OpenSuSE Leap 15.2 (kernel 5.3.18) sur laquelle a été installé le paquetage SluBK. Normalement, tous les services nécessaires au boot des nœuds ont été automatiquement lancés au démarrage de BPLnuc, notamment : dhpd, nfsd et le démon SluBK (bpmaster). S'assurer simplement que les scripts relatifs à l'initialisation de la "fabrique" Infiniband check_opensm.ibX ont bien été lancés :

BPLnuc:~ # ps aux|grep check_opensm
root      4224  0.0  0.0  11480  1600 ?        S    06:37   0:00 /bin/sh /etc/beowulf/admin/infiniband/check_opensm.ib40GPU
root     14064  0.0  0.0  11484  1592 ?        S    09:29   0:00 /bin/sh /etc/beowulf/admin/infiniband/check_opensm.ib40B2
root     27761  0.0  0.0  15364  5548 ?        S    Jan08   7:54 /bin/sh /etc/beowulf/admin/infiniband/check_opensm.ib40B0
root     27837  0.0  0.0   7792   828 pts/1    S+   12:19   0:00 grep check_opensm

Dans le cas où ils sont absents, il faut lancer la commande :

/etc/init.d/slubk_opensmd start

1.1.3. Frontale utilisateur Summit2

Une fois que la frontale utilisateur a démarré, monter MANUELLEMENT les espaces de stockage qui par défaut ne sont pas réalisés automatiquement.

Pour les zones NFS exportées par aum5, faire :

summit2:~ # nfssummit2mount.sh

Pour les zones fournies par le cluster Ceph CSummit2, faire :

summit2:~ # mount -T /etc/fstab.ceph -a

S'assurer enfin que le démon contrôleur de SLURM 'slurmctld' est bien en activité :

summit2:~ # systemctl status slurm
slurm.service - LSB: slurm daemon management
          Loaded: loaded (/etc/init.d/slurm)
          Active: active (running) since Tue, 2014-03-11 17:50:35 CET; 6 days ago
         Process: 38220 ExecStop=/etc/init.d/slurm stop (code=exited, status=0/SUCCESS)
         Process: 38663 ExecStart=/etc/init.d/slurm start (code=exited, status=0/SUCCESS)
        Main PID: 38676 (slurmctld)
          CGroup: name=systemd:/system/slurm.service
                  └ 38676 /usr/local/slurm/sbin/slurmctld

Mar 11 17:50:35 summit2 slurm[38663]: starting slurmctld: ..done
Mar 11 17:50:35 summit2 systemd[1]: Started LSB: slurm daemon management.

1.1.4. Nœuds de calcul

On allume tous les nœuds sans exception (même les nœuds susceptibles de s'allumer par Ipmi) de manière à pouvoir mieux contrôler par la suite le bon fonctionnement de SLURM.

1.1.5. Vérification du bon déroulement de la mise en marche

La vérification s'effectue à deux niveaux : d'une part depuis la frontale d'admin BPLnuc avec les outils SluBK; d'autre part depuis les frontales utilisateurs avec les outils SLURM. Evidemment, un nœud qui n'est pas dans l'état up sous SluBK (BPLnuc) ne peut être connu de SLURM sur les frontales utilisateurs.

[root@BPLnuc ~]# tail /var/log/beowulf/node.X

vous donnera la raison de l'échec du nœud X. Après correction du problème, il est possible de rebooter le nœud X avec la commande :

[root@BPLnuc ~]# bpctl -SX -R

Pour les nœuds qui sont dans l'état up, il est possible de vérifier que le démon slurmd est bien présent avec la commande :

[root@BPLnuc ~]# bpsh -ap pgrep slurmd

summit2:~ # sinfo -Nel -pany

qui retourne la liste des nœuds et leur état. Si certains sont down, la raison de la panne est donnée par la commande :

summit2:~ # sinfo -R

1.1.6. Démarrage de ce wiki

summit2:~ # su - wikimm
wikimm@summit2:~> wiki/moin_engine/startwiki.sh

1.2. Arrêt contrôlé

1.3. Arrêt d'urgence

Sur BPLnuc : /etc/beowulf/admin/nodes_down <liste de nœuds> pour éteindre tous les nœuds spécifiés.

2. Ajout/Retrait d'un nœud de calcul

3. Création/Modification/Suppression d'une partition Slurm


CatégoriePageAdmin

WikiSummit2: MarcheArrêtCluster (dernière édition le 2021-08-20 13:11:56 par DidierGazen)