ISAAC

Le projet ISAAC c’est …

Un constat

La position du CINES comme l’un des plus grand centre de calcul intensif français et européen lui permet d’être au cœur des préoccupations de la communauté scientifique quant au devenir des données scientifiques. Pour ce type de données, quelles soient le résultat de simulations ou le résultat d’observations scientifiques, plusieurs facteurs justifient de s’intéresser de près à leur conservation. Les besoins de réutilisation des résultats (à des fins de comparaison par exemple), les besoins d’échanges de données entre les équipes scientifiques ou encore l’importance des coûts de production font de l’archivage électronique des données scientifiques un enjeu majeur pour les acteurs de la recherche.

Un projet global

A partir de ce constat, et en s’appuyant sur son expertise dans le domaine de l’archivage pérenne (projet PAC), le CINES a initié le projet ISAAC (l’Information Scientifique Archivée Au CINES).

L’essentiel

  • Conserver les données scientifiques : un enjeu majeur pour la communauté
  • Identifier les besoins pour proposer un service utile
  • Fournir un cadre de travail structuré administrativement
  • Une conservation à moyen terme (3 à 5 ans)
  • Proposer un outil simple pour avoir l’adhésion des utilisateurs
Ce projet a pour ambition d’offrir à la communauté de l’enseignement supérieur et de la recherche un service d’archivage électronique spécifique aux données scientifiques. La durée de conservation sera de 3 à 5 ans (conservation à moyen terme). Isaac est un projet global. Il comprend en effet toutes les étapes de la mise en œuvre d’un projet informatique classique (de la définition des spécifications techniques et fonctionnelles à leur implémentation sur une plateforme de production), mais il a aussi pour but la mise en place d’une organisation administrative structurée faisant intervenir différents acteurs (chercheurs, experts des domaines scientifiques, représentants du CINES).

vieduprojetisaac-2

Une réponse liée aux besoins de la communauté

Cerner les besoins des utilisateurs est essentiel même si cela peut s’avérer complexe. L’étude du projet Européen EUDAT a permis d’identifier un certain nombre de fonctionnalités minimales que devrait apporter un service d’archivage de données scientifiques. De manière complémentaire, le CINES a réalisé en 2011 une enquête auprès de 150 laboratoires de recherche . Ce travail a permis de poser les bases d’une offre de service qui soit à la fois conforme aux directives européennes, en accord avec les techniques d’archivage, mais aussi et surtout qui réponde au mieux aux besoins des utilisateurs.

Les principaux besoins identifiés sont :

  • La conservation des données à moyen terme (3 à 5 ans)
  • La description des données grâce à des métadonnées
  • Le partage des données au sein d’un groupe d‘utilisateurs
  • Le contrôle d’authenticité (login, mot de passe)
  • Une gestion des permissions d’accès (groupe, lecture, écriture, …etc.)
  • La conservation de l’historique des évènements
  • La création d’un identifiant unique sur tous les objets numériques
  • Une interface Web pour le dépôt, l’accès et le partage des archives
  • Une Implication forte des utilisateurs notamment pour les demandes d’amélioration

Cliquez ici pour visualiser les résultats de l’enquête

Une organisation structurée d’envergure nationale

L’un des principaux défis du projet ISAAC réside dans son aspect organisationnel et administratif. En effet, toute donnée produite doit être rattachée à un contexte structuré et reconnu, ce qui permet d’en garantir sa pertinence et son intégrité. Ainsi, et dans le même esprit que les comités thématiques scientifiques du CINES du calcul intensif, le projet ISAAC propose la création de « Comités Thématiques d’Archivage ». Chaque CTA est composé d’un président, d’un représentant de la plateforme d’archivage, d’un ou plusieurs experts dans le domaine scientifique concerné.

Les rôles essentiels du CTA sont :

  • L’étude et le choix des formats de fichiers acceptés dans le système d’archivage
  • L’étude et le choix des jeux métadonnées à utiliser pour la description des données
  • L’étude et l’acceptation des projets d’archivage

Une architecture technique orientée « données réparties » avec iRods

Ce projet portant sur de grandes quantités de données ayant pour vocation à être partagées sur différents sites avec probablement des environnements hétérogènes, il nous parait opportun de se positionner sur une infrastructure technique offrant la possibilité d’une organisation de type grille de données. Le choix de la technologie « open source » iRods a été fait en ce sens car il offre des fonctionnalités très performantes en particulier en ce qui concerne la gestion de gros volumes de données réparties.

architecture_technique

Une interface Web conviviale et simple à utiliser pour :

  • Le dépôt des jeux de données à archiver
  • La description des données : compte tenu de la configuration des laboratoires qui n’ont pas toujours les moyens techniques et humains pour générer eux même leurs fichiers de description XML, ISAAC encapsulera un système de génération automatique de formulaires à partir de schémas XML. Ce module permet de faire de manière flexible des formulaires de saisie web pour décrire les données, les projets, les informations spécifiques à une thématique.
  • L’analyse et le contrôle des jeux de données selon les critères du CTA
  • La recherche, la consultation et l’échange des archives (accès sécurisé)

isaacEn

web-isaac-representation-fonctions

Un projet qui avance

Actuellement, le projet ISAAC est en phase de développement d’une première plateforme de tests qui permettra de valider tous nos choix techniques et organisationnels. Ces tests se feront sur des jeux de données de simulations fournis par le CORIA (COmplexe de Recherche Interprofessionnel en Aérothermochimie).

Dernière modification le : 20 septembre 2016