Configuration

Occigen comprend 34 racks :

  • 27 racks de calcul (cf. description architecture)
  • 7 racks assurant la connexion, les machines de service et de gestion des disques.

 

Le cluster comprend deux « tranches » :

  • la tranche 1 qui compte 50544 cœurs répartis sur 2106 nœuds (chacun disposant de 2 processeurs Intel 12-Cores (E5-2690V3@2.6 GHz).
  • la tranche 2 qui compte 35280 coeurs répartis sur 1260 noeuds (chacun disposant de 2 processeurs Intel 14 Cores (E5-2690 V4@2.6GHz)

DSC_9365

La machine Bull  » Occigen «  du CINES

 

La tranche 1 de la machine est découpée en deux. La moitié des nœuds dispose de 64 Go de mémoire, l’autre moitié de 128 Go utile soit plus de 202 To au total. La tranche 1 dispose de nœuds avec une taille mémoire uniforme (64 Go par nœud).

Les racks de calcul sont connectés à 5 racks montés sur un système de fichiers partagés Lustre avec une capacité de 5 Po utile au total. Le refroidissement est assuré par un système haut rendement à eau tiède directement dans les noeuds (mode DLC Direct Liquid Cooling).

La demande d’allocation d’heures de calcul sur ce cluster fait l’objet de deux campagnes par an (automne et printemps) par l’intermédiaire de la procédure DARI.

Architecture de Occigen

Description de l’architecture

La machine Occigen est homogène au niveau de ses nœuds, mais il y a deux version du processeur. La première tranche dispose de processeurs Haswell (12 coeurs), la tranche 2 dispose de processeurs Broadwell (14 coeurs). La taille mémoire des nœuds de la tranche 1 peut être de 64 Go ou 128 Go (50 % des noeuds).

La machine est découpée en rack. Un rack comprend :

  • Un bloc pour les alimentations
  • Un bloc contenant les services redondants de distribution du circuit interne de l’eau tiède.
  • 5 chassis. Chaque chassis est composé de 9 lames de calcul. Ces Lames contiennent 2 noeuds. Chaque noeud contient 2 processeurs. Chacun de ces processeurs comprend :
    • 12 cœurs (Haswell à 2.6 GHz) avec plus de 2,6 Go de mémoire par cœur (ou plus de 5,3 Go pour les noeuds à 128 Go).
    • 14 cœurs (Broadwell à 2.6 GHz) avec plus de 2,6 Go de mémoire par cœur.
  • Les processeurs des nœuds de connexion sont des processeurs Intel 12-Cores E5-2690 V3.

Au total, le cluster Occigen est composé de 3366 nœuds de calcul et possède donc 85824 cœurs

Le réseau utilisé pour connecter les nœuds entre eux, est un réseau Infiniband (IB 4x FDR). La topologie du réseau est en forme d’arbre (Fat tree) à trois étages. Le réseau est non bloquant au sein des châssis. Chaque groupe de 18 nœuds qui partagent le même switch dans un châssis sont joignables sans restrictions. Les liens « montants » d’un châssis de nœuds vers les switchs de rang supérieur sont divisés par deux. Pour 18 nœuds, seuls 9 liens montants sont utilisés..

Les systèmes de fichier sont de deux types.

  • Le /scratch (utilisé pour le stockage des résultats des calculs est de type Lustre. Il dispose de plus de 5 Po de surface utile et d’une bande passante maximum qui dépasse les 105 Go/s.
  • Le /home est de type Panasas, il est utilisé pour stocker les codes à exécuter, il profite d’une surface de 260 To et d’une bande passante de 10 Go/s.

Pour stocker les résultats de façon plus sure, chaque nœud de la machine accède au système de fichier /store. Celui-ci est aussi un système Lustre, mais avec des mécanisme de sécurisation avancés (stockage dupliqué et conservation sur bandes). Il doit être utilisé pour assurer la bonne conservation des résultats.

Le processeur Intel « Haswell » 12-Core E5-2690 V3

Les processeurs Intel 12-Core E5-2690 V3 possèdent 12 cœurs et dont la fréquence est de 2.60 Ghz. Sa puissance nominale est, par conséquent, de 1 Tflop/s. Chaque cœur dispose d’un Cache L1 de 32 Ko pour les données et de 32 Ko pour les instructions. Il existe 1 Cache L2 de 256 Ko par coeur, puis un cache L3 (LLC Last Level Cache) de 30 Mo partagé entre les 12 coeurs d’un processeur.

Enfin, les deux processeurs d’un nœud disposent de (suivant le noeud) :

  • 64 Go de mémoire physique (8 x 8 Go DIMM 2133MHz)
  • 128 Go de mémoire physique (8 x 16 Go DIMM 2133MHz)

Le processeur Intel « Broadwell » 14-Core E5-2690 V4

Les processeurs Intel 14-Core E5-2690 V4 possèdent 14 cœurs et dont la fréquence est de 2.60 Ghz. Sa puissance nominale est, par conséquent, de 1 Tflop/s. Chaque cœur dispose d’un Cache L1 de 32 Ko pour les données et de 32 Ko pour les instructions. Il existe 1 Cache L2 de 256 Ko par coeur, puis un cache L3 (LLC Last Level Cache) de 35 Mo partagé entre les 14 cœurs d’un processeur.

Enfin, les deux processeurs d’un nœud disposent de 64 Go de mémoire physique (8 x 8 Go DIMM 2133MHz).

1 Go est réservé pour le système. Étant donné qu’un nœud dispose de 64 (ou 128) Go de mémoire, il est possible d’allouer l’espace restant de cette mémoire à un seul processus MPI en exécutant un calcul en dépeuplé avec un seul processus MPI par nœud.

 

Dernière modification le : 25 janvier 2017