Le concept d’archivage numérique pérenne

Que recouvre exactement le terme d’archivage numérique pérenne ? En quoi est-ce vraiment différent de la sauvegarde sécurisée ?

Dans le contexte informatique, le terme « archivage » recouvre aujourd’hui plusieurs sens. Disons donc rapidement ce que n’est pas l’archivage numérique pérenne :

  • L’archivage numérique pérenne n’est pas une sauvegarde. Il ne s’agit pas seulement de préserver le train de bits d’un fichier.
  • L’archivage numérique pérenne n’est pas un service HSM – hierarchical storage manager – qui migrent les fichiers sur bande pour faire de la place sur disque.
  • L’archivage numérique pérenne n’est pas non plus l’ultime étape du stockage des données avant l’oubli ou la perte définitive.

L’archivage pérenne du document numérique a 3 objectifs principaux :

  1. conserver le document,
  2. le rendre accessible,
  3. en préserver l’intelligibilité.

Ces trois services sont conçus sur le très long terme, c’est-à-dire plus de 30 ans.

Conserver le document dans le temps ? C’est la fonction la plus évidente que l’on demande à un service d’archivage. Il s’agit de s’assurer que le document est toujours présent sur le support de stockage et qu’il conserve son intégrité.
Donner accès au document ? En effet, une conservation sans communication serait parfaitement stérile. Cela signifie pouvoir retrouver le document sur le support de stockage et pouvoir le lire (= ouvrir le ou les fichiers).
Préserver l’intelligibilité du document ? C’est faire en sorte que le document reste compréhensible par ses utilisateurs potentiels à travers le temps. Cet objectif peut sembler à la fois ambitieux et hors de propos. Ambitieux, il l’est sans aucun doute. Mais il se situe bien au cœur du métier d’archiviste. Que le document – ou l’archiviste – soit aujourd’hui « numérique » n’y change rien.

La sauvegarde (ou stockage) sécurisée ne prend en compte que les deux premiers objectifs sur les trois cités et seulement dans une perspective de court et moyen termes.

L’échelle de temps est donc ici un paramètre majeur eu égard au problème posé. Si on se situe à un horizon de l’ordre de 10 ans, le problème est – relativement – simple à traiter. En effet, un stockage informatique de bonne qualité et sécurisé garantit contre la perte accidentelle du document. L’évolution des technologies n’aura sans doute pas conduit à un bouleversement tel que le document sera devenu irrémédiablement illisible. Et enfin, la communauté des utilisateurs potentiels du document sera vraisemblablement assez proche, scientifiquement et culturellement, de celle qui aura créé le document 10 ans plus tôt.
Si on se place à un horizon de l’ordre de 30 ans ou plus, rien de tout cela n’est plus assuré si personne ne s’est préoccupé d’accompagner le document dans le temps. C’est bien cet horizon du très long terme qui constitue le cœur du défi de l’archivage numérique pérenne.

Les enjeux de la conservation sur le très long terme : l’obsolescence technologique

Dressons un petit inventaire des difficultés auxquelles nous aurions à faire face pour relire, par exemple après 10 ans, un fichier informatique pour lequel aucune précaution de conservation n’aurait été prise.

Votre fichier a 10 ans :

l’obsolescence technologique

A travers cet exemple, se dessinent les 4 principaux risques qui menacent inéluctablement un fichier :

  1. l’obsolescence matérielle,
  2. l’obsolescence logicielle,
  3. l’obsolescence du format de fichier,
  4. la perte de la signification du contenu.

Faire de l’archivage numérique pérenne, c’est mettre en œuvre les moyens nécessaires pour lutter contre ces menaces. Ces moyens, quels sont-ils ?

Contre la dégradation et le vieillissement des médias, il faudra prévoir de conserver des copies multiples des documents archivés, tout en diversifiant les technologies de stockage. Dans l’idéal, on peut par exemple souhaiter conserver sur site une copie disque et une copie bande, et une seconde copie bande sur un site distant. Ces seules précautions ne suffiront pas. Il faudra en outre rafraîchir (i.e. renouveler) régulièrement les supports en remplaçant les supports anciens par des supports neufs. Ici également, on veillera à appliquer le principe de précaution. Si tel fabricant réputé sérieux garantit la lisibilité de tel support sur 10 ans, c’est sans doute qu’il le sait fiable sur une durée de 20 ans. En vertu de quoi, on procédera par précaution au rafraîchissement régulier de tous les supports vieux de… 5 ans, soit la moitié de la durée de vie garantie par le fournisseur.

Contre la disparition soudaine de matériels ou de logiciels, on mettra en place des dispositifs d’alertes de type veille technologique et économique. En l’occurrence, et contrairement à la veille classique qui s’intéresse aux phénomènes émergents, on s’intéressera ici surtout aux technologies éprouvées en vue d’anticiper leur obsolescence. D’une manière générale, dans ce domaine comme ailleurs, on cherchera à privilégier systématiquement les normes pour éviter les dépendances vis-à-vis de solutions propriétaires.
Lorsque l’obsolescence d’un logiciel est avérée, l’émulation peut être une solution, bien que très coûteuse. Elle consiste à recréer l’environnement d’un logiciel pour pouvoir l’exécuter à nouveau. Cette technique est majoritairement utilisée aujourd’hui pour faire revivre les premiers jeux vidéos, comme Pacman.

Pour éviter l’impasse de la disparition des formats de fichier, on optera pour des formats durables. Qu’est-ce qu’un format durable ? C’est avant tout un format publié. C’est-à-dire un format dont les spécifications internes sont librement accessibles. Seul un format publié peut en effet permettre, dans le plus extrême des cas, à un développeur d’écrire un programme spécifique de relecture du fichier. Un format durable est aussi un format très utilisé, ou appelé à le devenir. Un format durable, c’est enfin et si possible un standard voire une norme. Au regard de ces critères, on peut dresser une liste des principaux formats actuellement considérés comme durables : voir l’article sur la Liste des formats archivables par la plateforme PAC.
Par ailleurs, choisir un format durable pour l’archivage n’enlève pas le fait qu’un jour ce format deviendra obsolète : il ne fait que retarder ce moment. Face à cela, une des solutions pour garantir la lisibilité d’un fichier est la conversion de format, c’est-à-dire, migrer le document dans un format différent de celui dans lequel il était précédemment encodé, tout en en préservant la fidélité.

Pour surmonter le dernier obstacle – le manque de documentation – la solution tient en un mot : les métadonnées. Les métadonnées, étymologiquement « les données sur les données », représentent toute l’information sur le document, information qu’il va falloir conserver avec le document pour en assurer l’intelligibilité dans le futur.

Dernière modification le : 22 avril 2014