SLURM : the Simple Linux Utility for Resource Management


Slurm est un gestionnaire de ressources et un système d'ordonnancement de jobs Open Source (GPL), tolérant aux pannes, qui convient aussi bien aux clusters Linux de faibles et moyennes tailles comme Summit2 qu'aux clusters de très grandes tailles (> 65000 nœuds) disponibles sur les centres nationaux ou internationaux. Il a été développé à l'origine par une équipe du Lawrence Livermore National Laboratory (LLNL) assisté par HP et BULL et supporté par IBM et Sun. Pour plus de renseignements, n'hésitez pas à consulter les pages de documentation de leur site Web :

1. Rôle du gestionnaire de ressource Slurm

La fonction du gestionnaire de ressource Slurm est triple :

Pour son fonctionnement, Slurm s'appuie principalement sur 2 démons (programmes qui s'exécutent en tâche de fond) :



2. Entités manipulées par Slurm



3. Commandes Slurm usuelles

En tant qu'utilisateur, vous devez connaître ces 6 commandes Slurm :

sinfo
squeue

Informations sur les entités manipulées (nœuds, partitions, jobs)
voir EtatCluster, ListePartitions

salloc
srun
sbatch
scancel

Allocation de ressources; exécution, soumission et destruction de jobs
voir SoumissionJob


CatégorieDocSlurm

WikiSummit2: IntroSlurm (dernière édition le 2024-10-21 08:42:29 par DidierGazen)