Architecture du Cluster Summit2

Le cluster Summit2 comprend 133 serveurs ou nœuds de calcul (plus de 2200 cœurs) auquel est associé un espace de stockage de plus de 2Po utiles. L'accès à cette ressource de calcul s'effectue via le serveur Summit2, appelé Frontale Summit2 qui est équipé de tous les outils Open Source pour développer et exécuter les programmes sur les nœuds de calcul. Chaque nœud possède un nom d'hôte de la forme nX (avec X un entier compris entre 1 et 424).

1. Schéma de principe

La figure ci-dessous est une vue simplifiée de la configuration du cluster Summit2.

2. La frontale summit2

Point d'accès à la ressource de calcul, il s'agit d'un Serveur Dell PowerEdge R540 ayant les caractéristiques suivantes :

Processeurs

2 x Intel(R) Xeon(R) Silver 4214 CPU @ 2.20GHz (24 cœurs)

RAM totale

384 GB

Disques

12 x 4TB en raid6 (44TB utiles) : $HOME des utilisateurs en BtrFS avec des snapshots


Ce serveur configuré sous Linux OpenSuSE Leap 15.2 héberge :

L'utilisateur ne se connecte pas directement aux nœuds de calcul : il doit faire appel au gestionnaire de ressources qui va se charger de lui allouer des nœuds pour un temps donné, d'exécuter ses jobs sur les nœuds alloués tout en arbitrant l'accès aux ressources par le biais de files d'attente.

3. Les nœuds de calcul

Le cluster comporte globalement 6 types de serveurs de puissance différente, les plus récents étant les serveurs Dell R740 et R440 dont les caractéristiques sont données ci-dessous :

Caractéristiques/Serveur

n1-n4

n5

Processeurs

2 x Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz

2 x AMD EPYC 7313 16-Core

Nombre de cœurs

16

16

RAM totale

384GB

1 TB


4. L'espace de stockage

Le cluster Ceph est composé de 12 serveurs de 16 disques de 8 To et 1 disque SSD de 400Go chacun. Chaque noeud ajoute 128 To brut (à un coût de 8500€ chez HP), pour un total de 1,2 Po brut pour le Legos, le Sedoo et l’IRAP. La connectique réseau à 25Gbps Le choix de redondance se fait par noeud: 8 + 3 (striping sur 11 noeuds avec 3 redondances)

10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/backup           40T     33T  7,7T  81% /backuplustre
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/ctoh       300T    162T  139T  54% /ctoh
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/dynotrop    45T     32T   14T  70% /dynotrop
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/echos      100T     62T   39T  62% /echos
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/ecola       42T     31T   12T  74% /ecola
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/littoral   5,0T       0  5,0T   0% /littoral
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/moana      5,0T       0  5,0T   0% /moana
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/projets    200T    178T   23T  89% /projets
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/sno         12T    5,6T  6,5T  47% /sno
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/soa         11T    2,7T  8,4T  25% /soa
10.206.1.1:6789,10.206.1.2:6789,10.206.1.3:6789:/OMP/Legos/data/tim        3,0T    253G  2,8T   9% /tim

Les noeuds de calcul ont un espace de travail local de 1 To, sur /workdir, qui est effacé à la fin des batchs. Cet espace est rapide et doit être utilisé comme espace temporaire.

❯ df -h -t ext4
Sys. de fichiers Taille Utilisé Dispo Uti% Monté sur
/dev/sdb3          1,1T     77M  1,1T   1% /workdir

Cas particulier, le noeud n5 (priorité CTOH) dispose d'un espace local de 64 To en plus de l'espace temporaire qui est de 2 To:

❯ df -h -t ext4
Sys. de fichiers Taille Utilisé Dispo Uti% Monté sur
/dev/sdb3          2,0T     81M  2,0T   1% /workdir
/dev/sda1           64T    139G   63T   1% /data


CatégorieBidon

WikiSummit2: ArchitectureSummit2 (dernière édition le 2024-10-22 10:21:32 par DidierGazen)