Comptabilisation

A partir de début 2017, la seconde tranche de la machine Occigen démarre en production. Cette tranche supplémentaire va demander aux utilisateurs de préciser, lors de la soumission de leurs travaux, vers quelle tranche ils désirent voir leurs jobs s’exécuter.

Tous les utilisateurs pourront soumettre des jobs dans les deux tranches.
Dorénavant vous devrez obligatoirement orienter vos travaux vers une tranche ou une autre (en fonction de vos besoins ou de la capacité de vos codes). Pour cela vous devrez mettre à jour votre script SLURM, la comptabilité horaire sera calculée en suivant le schéma ci-dessous.

Le calcul des heures décomptées de votre allocation va dépendre des ressources de la machine que vos jobs vont utiliser (moins de 24 cœurs, 24 cœurs, ou 28 cœurs) et de la durée d’utilisation. Vous pouvez consulter votre consommation sur le site web reser.

Comme vous pouvez le voir la facturation va dépendre de l’absence ou de la présence de plusieurs paramètres :

  • –constraint=HSW24 ou  BDW28
  • –mem (cas des nœuds SHARED uniquement)
  • –nodes
  • –ntasks
  • –exclusive
  • –time

Tout d’abord les paramètres obligatoires :

–constraint=HSW24 : votre job doit tourner sur un nœud à 24 cœurs (processeur Haswell)

–constraint=BDW28 (obligatoire si vous n’avez pas mis HSW24) : votre job doit tourner sur un nœud à 28 cœurs (processeur Broadwell)

–nodes : défini le nombre total de nœuds utilisés par votre job.

–time : la durée de résidence ne machine de votre job.

 

Ensuite les paramètres optionnels :

–mem : Défini la quantité de mémoire dans chaque nœud alloué par SLURM. La valeur par défaut dans les nœuds SHARED est 1 Go par job. La valeur par défaut dans les autres nœuds est 60 Go. Seuls les nœuds Haswell disposent de plus de 60 Go, donc le paramètre HSW24 est obligatoire avec en plus le paramètre –mem=120G.

–ntasks : le nombre total de taches MPI de votre job

–exclusive : force l’allocation d’un nœud complet pour votre job (utile uniquement lorsque –node=1 et –ntask<24).


Les nœuds de la machine Occigen peuvent être utilisés dans deux modes :

  • Le mode exclusif
  • le mode partagé

Les jobs dont la demande est supérieure à 23 cœurs ne sont pas concernés par le mode partagé, ainsi que les jobs qui demandent le mode exclusif.

Dans le mode exclusif, un seul job s’exécute dans un nœud, et a accès de façon exclusive à toutes les ressources du nœud (cœurs, mémoire, réseau). L’avantage de ce mode est d’avoir la totalité des ressources consacrées à son job.

Dans le mode partagé, plusieurs jobs peuvent tourner de façon simultané dans un nœud. Un mécanisme technique empêche les jobs de s’interpénétrer, il ne peut pas y avoir d’écrasement de zones mémoire, ni de « vol » de cycles CPU. L’avantage de ce mode réside dans la facturation. Pour les petits jobs (qui consomment moins de 24 cœurs), seuls les ressources consommées seront facturées. En 2015, si un job demandait un nœud qui consommait un seul cœur, il se voyait facturé la totalité du nœud (soit 24 cœurs). Avec le mode partagé, il sera facturé, au minimum, sur un seul cœur (en fonction de la mémoire demandée).

Par défaut, tous les jobs qui demandent moins de 24 cœurs seront en mode partagé.

Tous les nœuds de la partition partagée disposent de 128 Go de mémoire.

Dans le mode partagé, la méthode employée pour calculer la facturation va dépendre du nombre de cœurs et de l’empreinte mémoire du job.

Voici comment l’accès en mode partagé est configuré :
Le mode partagé est limité sur OCCIGEN aux travaux s’exécutant sur un seul nœud.

Tout job demandant plus d’un nœud et le mode partagé (option « –share ») se voit rejeté dès la soumission.

Tous les jobs qui demandent plus de 23 cœurs continuent d’être facturé à la totalité de tous les nœuds utilisés (24 ou 28 cœurs par nœud multiplié par le nombre de nœuds), comme précédemment.
Tous les jobs demandant moins de 24 cœurs se trouvent placés en mode partagé par défaut si l’utilisateur n’a rien précisé.

Par exemple, si vous demandez 49 cœurs, 72 cœurs vous seront facturés (72 est un multiple de 24, immédiatement supérieur à 49).

Dernière modification le : 7 février 2017