Formation nouvel utilisateur summit2

1. Rapide présentation du cluster

Philosophie générale d’utilisation des noeuds.

1.1. La frontale   ATTACH

Son nom officiel : summit2-legos.dsi.omp.eu

_20251114_130219screenshot.png

ssh summit2doc

http://localhost:8080/ArchitectureSummit2

1.2. Les noeuds de calcul   ATTACH

_20251114_130301screenshot.png

1.3. Accès à la documentation

Suivre la documentation sur: http://localhost:8080/ConnexionFrontale

Documentation officielle, à jour : sur la frontale.

D’où le besoin de faire un tunnel ssh pour la voir en local. Si l’on ajoute la configuration suivante sur sa configuration ssh : ~/.ssh/config

Host summit2doc
  Hostname summit2-legos
  ProxyJump nino@gwlegos.dsi.omp.eu
  LocalForward 8080 summit2-legos:8080

on peut faire:

my-pc> ssh summit2doc
nino@summit2-legos>

et après, de nouveau sur mon pc je peux ouvrir un navigateur sur le port 8080

my-pc> firefox localhost:8080

et voilà.

1.4. Comment se connecter au cluster

Suivre la documentation sur: http://localhost:8080/ConnexionFrontale

ou sur https://ctoh-docs.sedoo.fr/summit2doc/ConnexionFrontale.html

2. Les systèmes de stockage

2.1. Frontale

2.1.1. BtrFS (rapide)

Btrfs (B-tree file system, prononcé ButterFS) est un système copy on write.

Utilisé pour les /home et les disques locaux.

Apporte :

  • contrôle d’integrité des données par somme de contrôle
  • instantanés pour sauvegardes cohérentes (snapshots)

2.1.2. Ceph (lent)

  • Gros du volume de stockage, fonctionne sur réseau, données repliquées sans SPOF.
  • Relativement lent. Pas bon pour beaucoup de petits fichiers.

2.2. Noeuds

2.2.1. ext4 (rapide)

pour les disques locaux sur les noeuds de calcul (e.g. /workdir)

2.2.2. NFS (moins rapide)

sur les noeuds de calcul, on monte des partitions de la frontale notamment les /home et certaines /lib

2.2.3. Ceph (lent)

sur tout, le gros du volume de stockage

2.3. Organisation des répertoires au Legos

Sur la frontale summit2-legos :

  • /home btrfs avec des snapshots toutes les 6h à partir de minuit,
  • les disques équipe/projet

Important: sur /home/.snapshots chacun peut le restaurer :

ls -d /home/.snapshots/nino*
/home/.snapshots/nino.20250504T0005/  /home/.snapshots/nino.20251012T0005/  /home/.snapshots/nino.20251109T0005/  /home/.snapshots/nino.20251113T1205/
/home/.snapshots/nino.20250601T0005/  /home/.snapshots/nino.20251019T0005/  /home/.snapshots/nino.20251110T0005/  /home/.snapshots/nino.20251113T1805/
/home/.snapshots/nino.20250706T0005/  /home/.snapshots/nino.20251026T0005/  /home/.snapshots/nino.20251111T0005/  /home/.snapshots/nino.20251114T0005/
/home/.snapshots/nino.20250803T0005/  /home/.snapshots/nino.20251102T0005/  /home/.snapshots/nino.20251112T0005/  /home/.snapshots/nino.20251114T0605/
/home/.snapshots/nino.20250907T0005/  /home/.snapshots/nino.20251107T0005/  /home/.snapshots/nino.20251113T0005/  /home/.snapshots/nino.20251114T1205/
/home/.snapshots/nino.20251005T0005/  /home/.snapshots/nino.20251108T0005/  /home/.snapshots/nino.20251113T0605/

cd /home/.snapshots/nino.20251019T0005
❯ ls
 01.Create_schemas_tables.sql                              fpp-0.0.1-py3-none-any.whl                             neovim-0.7.2/                      src.new@
'Old Firefox Data'/                                        fpp-0.0.2.dev0+g2b82b4a1f.d20251030-py3-none-any.whl   neovim.tgz                         test.py
 alti_ci-0.1.dev16+g9118f97fb.d20251029-py3-none-any.whl   gcf                                                    new/                               test1ok.py
 bin/                                                      gw_legos_fb.pub                                        nvim*                              test2.py
 blu/                                                      gw_legos_fl.pub                                        nvim.src.tgz                       testfile.nc
 config.yaml

2.4. Disques d’équipe

De type ceph, ils ont beaucoup de volume

❯ df -h -t ceph
Sys. de fichiers                                                         Taille Utilisé Dispo Uti% Monté sur
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/backup           35T     13T   23T  35% /backuplustre
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/ctoh       300T    176T  125T  59% /ctoh
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/dynotrop    45T     42T  3,8T  92% /dynotrop
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/echos      100T     62T   39T  62% /echos
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/ecola       42T     39T  3,4T  92% /ecola
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/littoral   5,0T       0  5,0T   0% /littoral
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/moana      5,0T       0  5,0T   0% /moana
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/projets    240T    222T   19T  93% /projets
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/sno         12T    8,9T  3,2T  74% /sno
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/soa         11T    2,7T  8,4T  25% /soa
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/tim        3,0T    253G  2,8T   9% /tim

Noeuds de calcul:

il y a un disque rapide /workdir, local à chaque noeud.

Le workflow normal est:

  • sur la frontale, lancer un batch avec des programmes à éxécuter (cf Didier tout à l’heure)
  • quand le batch se lance sur le noeud :
    • copier les données d’entrée sur /workdir/$USER
    • éxécuter le programme et écrire les données de sortie sur /workdir
    • à la fin, recopier les données de /workdir vers /equipe/data pour pérennisation et accès.
    • le ménage du /workdir est à la charge de l’utilisateur.

2.5. Droits d’accès

La philosophie par défaut est la bienveillance. Beaucoup de répertoires sont ouverts à tous, par défaut. Notamment votre répertoire /home. Si vous voulez en restreindre l’accès, c’est à vous de le faire:

chmod -R go-rwx /home/$USER pour limiter l’accès au propriétaire chmod -R o-rx /home/$USER pour limiter l’accès au propriétaire et au groupe principal

2.6. Commandes à connaître:

  • duceph
  • getfacl pour connaître les droits d’accès réels à un répertoire ou fichier
  • setfacl pour changer les droits d’accès réels à un répertoire ou fichier
> getfacl share/data
# file: share/data
# owner: admcto
# group: ctoh
# flags: -s-
user::rwx
user:nino:rwx
group::rwx
mask::rwx
other::r-x
  • pigz et unpigz avec l’option -p pour limiter le nombre de cpus utilisés.

3. Logiciels disponibles

3.1. Utilisation de conda sans passer par les modules

source /workdir/modules/conda/miniforge3/etc/profile.d/conda.sh

3.2. Modules

export MODULEPATH=$MODULEPATH:/workdir/modules/modulefiles:/ctoh/share/modules/modulefiles

4. Données disponibles

  • Base de données altimétriques CTOH : données LRM et SWOT
  • Données multicapteurs

5. Le gestionnaire de commandes SLURM

Concepts et cas d’utilisation avec le lancement d’un jupyter notebook sur un noeud.