Sommaire
Administration du/des Cluster(s)
1. Marche/Arrêt du cluster
1.1. Mise en marche
En considérant l'état TOUT ETEINT, les étapes à suivre dans l'ordre sont :
- Mise en marche des switches Ethernet/Infiniband
Mise en marche des silos et du serveur de fichiers (aum5)
Mise en marche de la frontale d'administration BPLnuc
Mise en marche de la frontale utilisateurs Summit2
- Mise en marche des nœuds
- Vérification de l'état des nœuds
1.1.1. Silos et serveur de fichiers aum5
Onduleurs allumés, on démarre dans cet ordre :
- Allumer les JBODs (baies de disque passives, sans cable réseau)
- Allumer les baies RAID (celles connectées au réseau) et les laisser identifier les disques durs
- Allumer le serveur de fichier aum5
- Vérifier l'état des volume LVM sur les serveurs (commande lvs)
- Monter les zones sur le serveur (utiliser fstab pour obtenir la liste)
- Démarrer le serveur nfs : systemctl start nfsserver.service
1.1.2. Frontale d'administration BPLnuc
La frontale BPLnuc repose sur une distribution OpenSuSE Leap 15.2 (kernel 5.3.18) sur laquelle a été installé le paquetage SluBK. Normalement, tous les services nécessaires au boot des nœuds ont été automatiquement lancés au démarrage de BPLnuc, notamment : dhpd, nfsd et le démon SluBK (bpmaster). S'assurer simplement que les scripts relatifs à l'initialisation de la "fabrique" Infiniband check_opensm.ibX ont bien été lancés :
BPLnuc:~ # ps aux|grep check_opensm root 4224 0.0 0.0 11480 1600 ? S 06:37 0:00 /bin/sh /etc/beowulf/admin/infiniband/check_opensm.ib40GPU root 14064 0.0 0.0 11484 1592 ? S 09:29 0:00 /bin/sh /etc/beowulf/admin/infiniband/check_opensm.ib40B2 root 27761 0.0 0.0 15364 5548 ? S Jan08 7:54 /bin/sh /etc/beowulf/admin/infiniband/check_opensm.ib40B0 root 27837 0.0 0.0 7792 828 pts/1 S+ 12:19 0:00 grep check_opensm
Dans le cas où ils sont absents, il faut lancer la commande :
/etc/init.d/slubk_opensmd start
1.1.3. Frontale utilisateur Summit2
Une fois que la frontale utilisateur a démarré, monter MANUELLEMENT les espaces de stockage qui par défaut ne sont pas réalisés automatiquement.
Pour les zones NFS exportées par aum5, faire :
summit2:~ # nfssummit2mount.sh
Pour les zones fournies par le cluster Ceph CSummit2, faire :
summit2:~ # mount -T /etc/fstab.ceph -a
S'assurer enfin que le démon contrôleur de SLURM 'slurmctld' est bien en activité :
summit2:~ # systemctl status slurm
slurm.service - LSB: slurm daemon management
Loaded: loaded (/etc/init.d/slurm)
Active: active (running) since Tue, 2014-03-11 17:50:35 CET; 6 days ago
Process: 38220 ExecStop=/etc/init.d/slurm stop (code=exited, status=0/SUCCESS)
Process: 38663 ExecStart=/etc/init.d/slurm start (code=exited, status=0/SUCCESS)
Main PID: 38676 (slurmctld)
CGroup: name=systemd:/system/slurm.service
└ 38676 /usr/local/slurm/sbin/slurmctld
Mar 11 17:50:35 summit2 slurm[38663]: starting slurmctld: ..done
Mar 11 17:50:35 summit2 systemd[1]: Started LSB: slurm daemon management.
1.1.4. Nœuds de calcul
On allume tous les nœuds sans exception (même les nœuds susceptibles de s'allumer par Ipmi) de manière à pouvoir mieux contrôler par la suite le bon fonctionnement de SLURM.
1.1.5. Vérification du bon déroulement de la mise en marche
La vérification s'effectue à deux niveaux : d'une part depuis la frontale d'admin BPLnuc avec les outils SluBK; d'autre part depuis les frontales utilisateurs avec les outils SLURM. Evidemment, un nœud qui n'est pas dans l'état up sous SluBK (BPLnuc) ne peut être connu de SLURM sur les frontales utilisateurs.
sur BPLnuc lancer la commande bpstat -U pour suivre l'etat des nœuds de calcul dans leur phase de boot. Idéalement, chaque nœud doit se retrouver dans l'état up. Si un nœud X échoue au cours de son boot, il a de fortes chances de se retrouver dans l'état unavailable, auquel cas la commande :
[root@BPLnuc ~]# tail /var/log/beowulf/node.X
vous donnera la raison de l'échec du nœud X. Après correction du problème, il est possible de rebooter le nœud X avec la commande :
[root@BPLnuc ~]# bpctl -SX -R
Pour les nœuds qui sont dans l'état up, il est possible de vérifier que le démon slurmd est bien présent avec la commande :
[root@BPLnuc ~]# bpsh -ap pgrep slurmd
- sur la frontale utilisateur Summit2, on vérifie l'état des nœuds sous SLURM avec la commande :
summit2:~ # sinfo -Nel -pany
qui retourne la liste des nœuds et leur état. Si certains sont down, la raison de la panne est donnée par la commande :
summit2:~ # sinfo -R
1.1.6. Démarrage de ce wiki
summit2:~ # su - wikimm wikimm@summit2:~> wiki/moin_engine/startwiki.sh
1.2. Arrêt contrôlé
1.3. Arrêt d'urgence
Sur BPLnuc : /etc/beowulf/admin/nodes_down <liste de nœuds> pour éteindre tous les nœuds spécifiés.
2. Ajout/Retrait d'un nœud de calcul
