Les métadonnées de pérennisation

Une métadonnée, qu’est-ce que c’est ?

Littéralement, c’est une donnée sur les données. Elle permet de décrire et de renseigner sur le contenu d’un document, quel que soit son support.

Il existe plusieurs types de métadonnées :

  • les métadonnées de gestion, pour accéder au document ;
  • les métadonnées de description, pour en comprendre le contenu ;
  • et les métadonnées de préservation, pour garantir la pérennité de l’accès et de la compréhension du document.

Dans le modèle OAIS, l’ensemble des informations associées au contenu d’information sont des métadonnées (voir article sur le modèle OAIS).

Quel est l’enjeu de l’identification et de la conservation des métadonnées ?

Les métadonnées sont la carte d’identité d’un document. Elles permettent de l’identifier, de le décrire, d’expliquer l’origine de sa création, son utilité et ses destinataires.
Sans tous ces éléments, un document peut vite devenir incompréhensible et donc inexploitable.
En effet, comment comprendre une succession de chiffres dans un tableau, s’il n’est pas précisé ce que représentent les valeurs en abscisses et en ordonnées, qui a fait ce document, pour qui, dans quel but ou encore à quelle date.

L’identification de toutes les métadonnées qui devront accompagner un document numérique est donc un travail crucial mais difficile. Crucial, car il va conditionner très directement la qualité du service d’archivage et d’accès futur au document. Difficile, car les retours d’expérience en archivage numérique sur le très long terme sont évidemment quasi inexistants aujourd’hui, et nous évoluons donc dans un domaine encore inconnu où l’on ne peut avancer qu’en faisant des hypothèses et en prenant quelques risques assumés.

Les principaux standards en matière de métadonnées

Pour aider dans la lourde tâche de la constitution d’un jeu de métadonnées, il existe des dictionnaires ou jeux de métadonnées ainsi que des standards d’empaquetage de ces métadonnées.

Le point d’ancrage de tout travail autour des métadonnées est très certainement l’ensemble de métadonnées de référence du Dublin Core, utilisées aujourd’hui par une large communauté internationale d’archivistes.
Les métadonnées du Dublin Core sont constituées de 15 éléments fondamentaux destinés à décrire toute ressource, au sens large, disponible sur Internet.
Ces 15 éléments sont :

  • title
  • creator
  • subject
  • description
  • publisher
  • contributor
  • date
  • type
  • format
  • source
  • language
  • relation
  • coverage
  • rights
  • identifier

Cet ensemble constitue le noyau dur des métadonnées descriptives du document.

Mais à ce premier niveau généraliste de métadonnées descriptives, il est nécessaire d’ajouter des métadonnées plus techniques, spécialisées dans l’activité de pérennisation proprement dite. Plusieurs recommandations existent dans ce domaine, comme PREMIS (Preservation Metadata : Implementation Strategies) qui est un dictionnaire de données définissant des éléments principaux afin d’améliorer les fonctions de conservation. Il liste les métadonnées de conservation qui doivent être connues du service d’archives.

Il existe également de multiples dictionnaires de métadonnées spécialisés. On peut citer entre autres TEF pour les thèses électroniques françaises ou LOM, LOMFR et SupLOMFR pour les ressources d’enseignement et d’apprentissage.

Tous ces dictionnaires ne sont pas exclusifs et peuvent être combinés grâce à des standards d’empaquetage des métadonnées.
L’un des plus connus est METS (Metadata Encoding and Transmission Standard – Norme de codage et de transmission de métadonnées). C’est un format d’empaquetage en XML, ouvert, non propriétaire, modulaire et extensible, qui permet d’encapsuler plusieurs blocs de métadonnées pour décrire un objet numérique : métadonnées descriptives, administratives, structurales, sur les fichiers et sur les liens entre les objets.

Dans le milieu archivistique, on utilise EAD(Encoded Archival Description – Description archivistique encodée) comme standard d’empaquetage de métadonnées. Elle sert à encoder les instruments de recherche d’archives et permet donc de décrire des fonds d’archives, des collections de manuscrits et de manière plus large tout type de collections hiérarchisées de documents ou d’objets (photographies, microfilms, pièces de musée).

En pratique, l’identification d’un ensemble de métadonnées d’archivage relève plutôt d’une approche de type « gestion de risques ». Partant d’une ou plusieurs listes très larges, on élimine chaque métadonnée jugée inutile au vu des services futurs prévus ou prévisibles.

 

icone-PDFVoir liste des métadonnées retenues pour le système d’archivage du CINES.

Dernière modification le : 30 décembre 2016