Adastra comprend 7 racks CRAY EX :
- 5 racks de calcul (cf. description architecture) plus 2 racks de climatisation
- 4 racks additionnels standards assurent la connexion, les machines de service et de gestion des disques.
Le cluster comprend deux « tranches » :
- la tranche 1 compte 190361160 cœurs GPU répartis sur 338 nœuds
- la tranche 2 compte 102912 coeurs CPU répartis sur 536 noeuds
Tranche 1 | Tranche 2 | Visualisation | Login | |
Ref. constructeur | HPE-Cray | HPE-Cray | HPE-Cray | HPE-Cray |
Nom processeur | Trento | Genoa | Genoa | Genoa |
Ref. processeur | AMD EPYC 7713 | |||
Nb de noeuds | 338 | 536 | 12 | 10 |
Processeurs par noeud | 1 | 2 | 2 | 2 |
Fréq. des processeurs | 2.6 GHz | 2.6 GHz | 2.6 GHz | 2.0 GHz |
Coeurs par processeur | 64 | 96 | 64 | 64 |
Taille cache L1 |
64 X 32 Ko instr. 64 X 32 Ko data |
|||
Taille cache L2 | 64 X 512 Ko | |||
Taille cache LLC | 256 Mo | |||
Nb de canaux mémoire | 4 | 4 | 4 | 6 |
Mémoire par nœud | 256 Go | 768 Go | 2 To | 512 Go |
Type de mémoire | DDR4 | DDR4 | DDR4 | DDR4 |
Attachement réseau | 4 X Slingshot 200 Gbit/s | Slingshot 200 Gbit/s | 2 X Slingshot 200 Gbit/s | 2 X Slingshot 200 Gbit/s |
Type de GPU | MI-250X | Nvidia A40 40 Go | ||
Nb GPU par noeud | 4 | |||
Nb coeurs total | 59200 |
La machine HPE-Cray « Adastra » au CINES
Les racks de calcul sont connectés à 5 racks montés sur un système de fichiers partagés Lustre avec une capacité de 1.8 Po utile au total.
Le refroidissement est intégralement assuré par un système haut rendement à eau tiède directement dans les nœuds (mode DLC Direct Liquid Cooling).
La demande d’allocation d’heures de calcul sur ce cluster fait l’objet de deux campagnes par an (automne et printemps) par l’intermédiaire de la procédure DARI.
Architecture de Adastra
Description de l’architecture
La machine est découpée en rack. Un rack comprend :
- Un bloc pour les alimentations
- Un bloc contenant les services redondants de distribution du circuit interne de l’eau tiède.
- 8 châssis. Chaque châssis est composé de 8 modules de calcul. Ces modules contiennent 2 nœuds de calcul GPU, ou 4 noeuds de calcul CPU.
- Les processeurs des nœuds de connexion sont des processeurs AMD Genoa 64 coeurs.
Au total, le cluster Adastra est composé de 874 nœuds de calcul et possède donc 102912 cœurs CPU et 20009600 coeurs GPU.
Le réseau utilisé pour connecter les nœuds entre eux, est un réseau Slingshot 200 Gbit/s. La topologie du réseau est en forme dragon fly. Le réseau dispose d’un routage adaptatif en fonction de la charge. Chaque groupe de 16 nœuds qui partagent le même switch dans un châssis sont joignables sans restrictions.
Les systèmes de fichier sont de trois types.
- Le /scratch (utilisé pour le stockage des résultats des calculs est de type Lustre. Il dispose de plus de 1.8 Po de surface utile et d’une bande passante maximum qui dépasse le Térabit par seconde. Le scratch va appliquer une politique d’effacement des fichiers de plus de 30 jours (pensez à recopier vos données dans le /work ou le /store).
- Le /work utilisé pour conserver les résultats des calculs.
- Le /home est de type Lustre, il est utilisé pour stocker les codes à exécuter, il profite d’une surface de 160 To.
Pour stocker les résultats de façon plus sure, chaque nœud de la machine accède au système de fichier /store. Celui-ci est aussi un système Lustre, mais avec des mécanisme de sécurisation avancés (stockage dupliqué et conservation sur bandes). Il doit être utilisé pour assurer la bonne conservation des résultats.