Configuration

Occigen comprend 34 racks :

  • 27 racks de calcul (cf. description architecture)
  • 7 racks assurant la connexion, les machines de service et de gestion des disques.

Le cluster comprend trois « tranches » :

  • la tranche 1 qui compte 50544 cœurs répartis sur 2106 nœuds
  • la tranche 2 qui compte 35280 coeurs répartis sur 1260 noeuds
  • la tranche 3 qui compte 224 cœurs dans un seul nœud

 

Tranche 1 Tranche 2 Visualisation Large
Ref. constructeur Bull B720 Bull B720 Bull R421-E4 Bull Sequana X800
Nom processeur Haswell Broadwell Broadwell Skylake
Ref. processeur E5-2690V3@2.6 GHz E5-2690 V4@2.6GHz E5-2690 V4@2.6GHz Xéon Platinum 8176@2.1GHz
Nb de noeuds 2106 1260 4 1
Processeurs par noeud 2 2 2 8
Fréq. des processeurs 2.6 GHz 2.6 GHz 2.6 GHz 2.1 GHz
Coeurs par processeur 12 14 14 28
Taille cache L1

12 X 32 Ko instr.

12 X 32 Ko data

14 X 32 Ko instr.

14 X 32 Ko data

14 X 32 Ko instr.

14 X 32 Ko data

28 X 32 Ko instr.

28 X 32 Ko data

Taille cache L2 12 X 256 Ko 14 X 256 Ko 14 X 256 Ko 28 X 1 Mo
Taille cache LLC 30 Mo 35 Mo 35 Mo 38.5 Mo
Nb de canaux mémoire 4 4 4 6
Mémoire par noeud

1053 X 64 Go

1053 X 128 Go

64 Go 256 Go 3 To
Type de mémoire DDR4-2133P-R DDR4-2400T-R DDR4-2400T-R DDR4-2666V-R
Attachement réseau Infiniband FDR 56 Gbit/s Infiniband FDR 56 Gbit/s Infiniband FDR 56 Gbit/s Infiniband FDR 56 Gbit/s
Type de GPU Nvidia Tesla P100 PCIe 12Go Nvidia Tesla P100 PCIe 12Go
Nb GPU par noeud 1 2
Nb coeurs total 50544 35280 112 224

 

DSC_9365

La machine Bull  » Occigen «  du CINES

Les racks de calcul sont connectés à 5 racks montés sur un système de fichiers partagés Lustre avec une capacité de 5 Po utile au total.

Le refroidissement est assuré par un système haut rendement à eau tiède directement dans les nœuds (mode DLC Direct Liquid Cooling).

La demande d’allocation d’heures de calcul sur ce cluster fait l’objet de deux campagnes par an (automne et printemps) par l’intermédiaire de la procédure DARI.

Architecture de Occigen

Description de l’architecture

La machine est découpée en rack. Un rack comprend :

  • Un bloc pour les alimentations
  • Un bloc contenant les services redondants de distribution du circuit interne de l’eau tiède.
  • 5 châssis. Chaque châssis est composé de 9 lames de calcul. Ces Lames contiennent 2 nœuds.
  • Les processeurs des nœuds de connexion sont des processeurs Intel 12-Cores E5-2690 V3.

Au total, le cluster Occigen est composé de 3367 nœuds de calcul et possède donc 86048 cœurs.

Le réseau utilisé pour connecter les nœuds entre eux, est un réseau Infiniband (IB 4x FDR). La topologie du réseau est en forme d’arbre (Fat tree pruned) à trois étages. Le réseau est non bloquant au sein des châssis. Chaque groupe de 18 nœuds qui partagent le même switch dans un châssis sont joignables sans restrictions. Les liens « montants » d’un châssis de nœuds vers les switchs de rang supérieur sont divisés par deux. Pour 18 nœuds, seuls 9 liens montants sont utilisés..

Les systèmes de fichier sont de deux types.

  • Le /scratch (utilisé pour le stockage des résultats des calculs est de type Lustre. Il dispose de plus de 5 Po de surface utile et d’une bande passante maximum qui dépasse les 105 Go/s.
  • Le /home est de type Panasas, il est utilisé pour stocker les codes à exécuter, il profite d’une surface de 260 To et d’une bande passante de 10 Go/s.

Pour stocker les résultats de façon plus sure, chaque nœud de la machine accède au système de fichier /store. Celui-ci est aussi un système Lustre, mais avec des mécanisme de sécurisation avancés (stockage dupliqué et conservation sur bandes). Il doit être utilisé pour assurer la bonne conservation des résultats.

Dernière modification le : 19 février 2019
CINES