CINES - Centre Informatique National de l’Enseignement Supérieur

cines

C.I.N.E.S. Centre Informatique National de l’Enseignement Supérieur

Adastra

data-table
ACCÈS RAPIDES
pattern.png

Adastra comprend 7 racks CRAY EX :

  • 5 racks de calcul (cf. description architecture) plus 2 racks de climatisation
  • 4 racks additionnels standards assurent la connexion, les machines de service et de gestion des disques.


Le cluster comprend deux « tranches » :

  • la tranche 1 compte 190361160 cœurs GPU répartis sur 338 nœuds
  • la tranche 2 compte 102912 coeurs CPU répartis sur 536 noeuds

 


Tranche 1 Tranche 2 Visualisation Login
Ref. constructeur HPE-Cray HPE-Cray HPE-Cray HPE-Cray
Nom processeur Trento Genoa Genoa Genoa
Ref. processeur


AMD EPYC 7713
Nb de noeuds 338 536 12 10
Processeurs par noeud 1 2 2 2
Fréq. des processeurs 2.6 GHz 2.6 GHz 2.6 GHz 2.0 GHz
Coeurs par processeur 64 96 64 64
Taille cache L1


64 X 32 Ko instr.

64 X 32 Ko data

Taille cache L2


64 X 512 Ko
Taille cache LLC


256 Mo
Nb de canaux mémoire 4 4 4 6
Mémoire par nœud 256 Go 768 Go 2 To 512 Go
Type de mémoire DDR4 DDR4 DDR4 DDR4
Attachement réseau 4 X Slingshot 200 Gbit/s Slingshot 200 Gbit/s 2 X Slingshot 200 Gbit/s 2 X Slingshot 200 Gbit/s
Type de GPU MI-250X
Nvidia A40 40 Go
Nb GPU par noeud 4


Nb coeurs total 59200


 

 

La machine HPE-Cray « Adastra » au CINES

 

Les racks de calcul sont connectés à 5 racks montés sur un système de fichiers partagés Lustre avec une capacité de 1.8 Po utile au total.

Le refroidissement est intégralement assuré par un système haut rendement à eau tiède directement dans les nœuds (mode DLC Direct Liquid Cooling).

La demande d’allocation d’heures de calcul sur ce cluster fait l’objet de deux campagnes par an (automne et printemps) par l’intermédiaire de la procédure DARI.



Architecture de Adastra


Description de l’architecture


La machine est découpée en rack. Un rack comprend :

  • Un bloc pour les alimentations
  • Un bloc contenant les services redondants de distribution du circuit interne de l’eau tiède.
  • 8 châssis. Chaque châssis est composé de 8 modules de calcul. Ces modules contiennent 2 nœuds de calcul GPU, ou 4 noeuds de calcul CPU.
  • Les processeurs des nœuds de connexion sont des processeurs AMD Genoa 64 coeurs.


Au total, le cluster Adastra est composé de 874 nœuds de calcul et possède donc  102912 cœurs CPU et 20009600 coeurs GPU.


Le réseau utilisé pour connecter les nœuds entre eux, est un réseau Slingshot 200 Gbit/s. La topologie du réseau est en forme dragon fly. Le réseau dispose d’un routage adaptatif en fonction de la charge. Chaque groupe de 16 nœuds qui partagent le même switch dans un châssis sont joignables sans restrictions.


Les systèmes de fichier sont de trois types.

  • Le /scratch (utilisé pour le stockage des résultats des calculs est de type Lustre. Il dispose de plus de 1.8 Po de surface utile et d’une bande passante maximum qui dépasse le Térabit par seconde. Le scratch va appliquer une politique d’effacement des fichiers de plus de 30 jours (pensez à recopier vos données dans le /work ou le /store).
  • Le /work utilisé pour conserver les résultats des calculs.
  • Le /home est de type Lustre, il est utilisé pour stocker les codes à exécuter, il profite d’une surface de 160 To.


Pour stocker les résultats de façon plus sure, chaque nœud de la machine accède au système de fichier /store. Celui-ci est aussi un système Lustre, mais avec des mécanisme de sécurisation avancés (stockage dupliqué et conservation sur bandes). Il doit être utilisé pour assurer la bonne conservation des résultats.

Partager l'article :

Facebook
Twitter
LinkedIn
LIENS TÉLÉCHARGEABLES