La conservation de l’information numérique : ses divers aspects et la situation actuellepar Alison BullockFlash Réseau no60 ISSN 1200-5304 Services de technologie de l'information Bibliothèque nationale du Canada
Le 22 avril 1999 1.0 Introduction Pendant de nombreuses décennies, les spécialistes de la conservation ont exprimé le souci de la conservation de la partie de notre patrimoine culturel publiée sous forme électronique. Le défi principal – l’obsolescence rapide du matériel et des logiciels nécessaires à l’interprétation et à la présentation des documents numériques – est connu de tous. Pour assurer la continuité de l’accès à l’information numérique, il faut copier ou transformer les documents numériques pour les rendre accessibles par voie des supports, des logiciels, du matériel et des systèmes d’exploitation de l’heure. Le présent document traite des questions concernant la conservation de l’information numérique et fait ressortir les travaux qui ont été fait sur ces questions. 2.0 En quoi consiste la conservation numérique? La « conservation numérique » ou l’« archivage numérique » consiste à prendre des mesures pour assurer la longévité des documents électroniques. Ces mesures s’appliquent à des documents qui sont « créés sous forme numérique » et disponibles en direct (ou sur cédéroms, disquettes ou autres supports matériels) ou à des produits de conversion analogique à numérique, s’il importe d’assurer l’accès à long terme. 3.0 Les problèmes en quelques mots Le problème fondamental de la conservation de documents électroniques ou d’« objets numériques » relève de la nature des objets en soi. Contrairement aux formats qui ne sont pas numériques tels les livres, les revues, les manuscrits et les microfilms, les objets numériques sont accessibles seulement par l’entremise de l’utilisation d’ordinateur et de logiciel. La concurrence des marchés signifie que ce matériel et ces logiciels peuvent devenir désuets par cycles de moins de trois ans. Ainsi, pour assurer un accès continu, il faut suivre le changement technologique et déplacer les objets numériques à partir de formats désuets à des formats de fichiers, des supports de stockage et des systèmes d’exploitation ayant cours et ainsi de suite. Plusieurs autres aspects légaux, sociaux et techniques viennent s’ajouter pour compliquer la tâche. Ces aspects comprennent :
4.0 Exigences de conservation Les mesures de conservation ont pour but de rendre un document ou un artefact – numérique ou autre – accessible dans une forme utilisable pour longtemps. Toutefois, il est beaucoup plus difficile d’assurer l’accessibilité à long terme à des supports numériques qu’à des supports autres tel le papier. À titre d’exemple, lorsqu’un livre est conservé sous sa forme d’origine, tous les aspects du livre sont conservés – sa présence physique, son format, sa mise en page et son contenu. Il est pratiquement impossible d’en extraire des éléments particuliers (p. ex., son contenu sans sa mise en page) puisqu’ils sont liés de façon inextricable. Même le reformatage sur papier ou sur microfilm n’arrive pas à dissocier complètement le contenu de la mise en page puisque la séquence des pages et l’apparence physique, pour ne citer que ces exemples, demeurent toujours. Par contraste, les objets numériques se décomposent facilement en éléments particuliers et il faut s’appliquer beaucoup plus si l’on veut les conserver dans leur « entièreté ». À titre d’exemple, il est possible de conserver le contenu d’un document électronique tout en perdant la mise en page. De même, il est possible d’en conserver la présence physique (p. ex., un fichier) sans toutefois arriver à conserver sa lisibilité. Dans le monde numérique, il importe avant tout d’identifier les multiples aspects d’un ouvrage que l’on veut conserver. Ensuite, pour réussir à conserver des objets numériques, il faut prendre des mesures de conservation qui assurent la conservation à long terme d’autant d’aspects que possible. Lors de la conservation d’un objet numérique, nous tentons de :
5.0 Stratégies de conservation proposées Plusieurs stratégies tentent de traiter le problème principal de la conservation numérique, soit l’obsolescence technologique. Ces stratégies comportent la migration de l’information sur plusieurs générations technologiques successives, l’utilisation de logiciel permettant d’émuler le comportement d’appareils plus anciens, la conservation de vieux matériel et logiciel afin de pouvoir travailler à l’aide de programmes désuets et la création de copies matérielles (papier ou microforme) d’objets numériques. Toutes ces stratégies répondent à certains objectifs, mais aucune de ces stratégies constitue une panacée.
5.1 Migration La migration est la principale stratégie énoncée par la plupart des organisations qui souhaitent conserver des objets numériques. Cette stratégie comporte un éventail d’activités permettant de copier, de convertir ou de transférer l’information numérique d’une génération technologique à une génération subséquente. La migration peut comporter la reproduction d’information numérique d’un support devenu désuet ou détérioré sur un support plus récent (p. ex., d’un disque souple à un cédérom) ou la conversion d’un format à un autre (p. ex., de Microsoft Word à ASCII) ou déplacer les documents d’une plate-forme à une autre (p. ex., de VAX à UNIX). Il ne fait aucun doute que la migration conserve la présence physique et le contenu d’un objet numérique. Toutefois, il se peut que la présentation, la fonctionnalité et le contexte soient modifiés. À titre d’exemple, les éléments de présentation tels les caractères gras et italiques peuvent disparaître et la fonctionnalité et le contexte assuré par des liens à des entrées de base de données peuvent être perdus si les liens sont brisés. Les migrations successives peuvent entraîner des pertes de données qui deviennent inacceptables en fin de compte. Il importe de limiter les pertes et de conserver le contenu pour qu’il soit utilisable. Les archives de données effectuent avec succès depuis longtemps la migration, mais ce domaine traite généralement de l’information relativement homogène déposée conformément à des lignes directrices qui exigent un nombre limité de formats acceptables et de modes de transmission. Dans le cas de certaines archives, on procède à la conversion des formats non standard à un ou deux formats normalisés dès réception. Par contre, la National Library of Australia a fait face à des problèmes en voulant convertir un petit échantillon de publications commerciales, de disquettes souples à des cédéroms. D’abord, une partie importante (35 p. 100), n’a pu être ni vérifié ni utilisé parce que la bibliothèque n’avait pas le matériel ni le logiciel pour ce faire. De plus, pour diverses raisons, seule la moitié d’environ 40 disquettes, copiées à partir de disquettes sur des cédéroms, a pu encore être déclarée fonctionnelle après la reproduction 2. L’expérience de la National Library of Australia démontre que la plus simple forme de migration - la reproduction - peut entraîner des problèmes en ce qui concerne certains types d’objets numériques faisant partie de collections de bibliothèque. La conservation de publications en format physique (cédérom, disquettes souples) s’avérera particulièrement ardue. À titre d’exemple, la reproduction de ces objets peut comporter la reproduction simultanée de langages de programmation qui peuvent devenir désuets. Malgré tout, il existe plusieurs façons d’améliorer les chances d’utiliser la migration avec succès, en guise de stratégie de conservation. En voici quelques exemples : La migration est sans contredit une importante stratégie de conservation d’objets numériques. Toutefois, il faudra en évaluer et en démontrer la pertinence en tant que mécanisme pour la gestion des objets multimédias complexes à long terme. 5.2 Émulation L’émulation consiste à créer un nouveau logiciel dont le fonctionnement est similaire à celui d’un matériel ou d’un logiciel plus ancien afin d’en reproduire la performance. Il est ainsi possible de conserver non seulement la présence physique et le contenu, mais les objets numériques contiennent les caractéristiques d’origine de l’objet (p. ex., la mise en page) et la fonctionnalité qui est disponible grâce à l’ancien logiciel. L’émulation a récemment soulevé l’intérêt en tant que stratégie éventuelle à l’appui de la conservation, compte tenu que certains documents électroniques étroitement dépendants de certains matériel ou logiciels ne se prêtent pas à la migration. L’émulation donne une « compatibilité à rebours » aux jeux vidéo et sert à modéliser le fonctionnement de systèmes à venir. Certains systèmes périmés comportent des émulateurs, quoique l’émulation, dans le cas de la conservation des objets numériques à long terme, n’a pas été vérifiée ou évaluée quant au prix. 5.3 Produire une copie sur papier permanent ou sur microfilm Produire un imprimé d’un fichier numérique est une solution « rudimentaire » qui donne un produit très normalisé d’une durée de plusieurs centaines d’année. Sans aucun doute, cette stratégie permet de fixer l’objet dans son intégralité et d’en conserver le contenu et la mise en page jusqu’à un certain point. Toutefois, un nombre décroissant de publications (fichiers non hiérarchiques, formats imprimables) se prêtent à ce genre de méthode. Mentionnons à ce titre que la production sur papier entraînera une importante perte fonctionnelle dans le cas des documents hypertextes et ne peut rendre le multimédia. Malgré ces désavantages, la « stratégie hybride » consistant à créer des copies sur microfilm et des copies numériques en tant que technique de reformatage de documents originaux sur papier, est en train de faire des adeptes. La copie numérique favorise l’accès et la fonctionnalité tandis que la copie sur microforme sert d’auxiliaire archivistique. 5.4 Conservation de la technologie Une autre méthode permettant d’assurer l’accès continu aux objets numériques consisterait à tout simplement garder l’ancienne technologie à la portée de la main. Bien que cette solution permettrait de conserver le contenu tout en permettant aux générations futures de visionner les objets numériques dans leur format d’origine comprenant la mise en page et la fonctionnalité, la création de « musées » de matériel et de logiciels est une solution inabordable sur le plan des exigences de coût, d’espace et de support technique. Dans le meilleur des cas, il s’agit d’une mesure intérimaire, lorsque la migration n’est pas réalisable. Une recherche est en cours dans le but d’explorer les stratégies de conservation mentionnées précédemment. Déjà en Grande-Bretagne, le National Preservation Office et le Joint Information Systems Committee (JISC) avaient cofinancé plusieurs projets sur l’archivage numérique. Ces travaux ont donné comme résultat un outil permettant de mesurer la complexité du processus de conservation et de guider le choix de l’approche de conservation. L’outil a recours à une carte de pointage pour évaluer des éléments tels le genre de document, le format de fichier, le support et la plate-forme ou le système d’exploitation. D’autres rapports de ces deux organismes portaient sur les méthodes de comparaison de la conservation numérique et sur la récupération spéciale de documents numériques. Pour donner suite, le JISC finance le projet CEDARS 3 (CURL Exemplars in Digital ARchiveS) par l’entremise du Consortium of University Research Libraries. Le projet étalé sur trois ans a débuté en mars 1998. Entre autres objectifs, CEDARS portera sur les méthodes de conservation de diverses sortes de ressources numériques et élaborera des modèles à différentes échelles et différents prix. Aux États-Unis on fait d’autres recherches sur les approches relatives à la conservation numérique. La Cornell University, notamment, travaille à l’élaboration d’outils de gestion du risque pour la gestion de l’information numérique et à la réalisation d’un plan visant la conservation à long terme de ses documents numériques 4. Le Council on Library and Information Resources, qui subventionne partiellement les travaux de la Cornell, vient tout juste de faire paraître un rapport sur l’émulation 5. Le rapport fait l’analyse des stratégies de conservation proposées, décrit pourquoi l’émulation est la solution la plus réaliste et cerne des recherches plus poussées qui permettront de faire ressortir l’émulation comme la stratégie de conservation de prédilection en ce qui concerne les objets numériques. Sans aucun doute, il reste beaucoup de travail à faire avant que les stratégies actuelles répondent à la plupart des besoins de conservation. De plus, les stratégies telles l’émulation et la migration exigeront un engagement continu et des ressources importantes. Comme dans le domaine analogique, il faudra avoir recours à une combinaison d’approches pour assurer la survie de l’information numérique. 6.0 Prendre charge Pour augmenter les probabilités de conservation des objets numériques, les organisations doivent assumer des préparatifs appropriés. L’un de ceux-ci sera d’élaborer et de mettre en place les pratiques les plus efficaces pour faire l’acquisition, la description et la gestion des ressources numériques.
6.1 Adopter des normes Pour favoriser la conservation, la meilleure pratique est d’adopter une approche en trois étapes : 1) utiliser des normes récentes pour la création d’objets numériques; 2) surveiller les changements au niveau des normes; 3) adopter les nouvelles normes dès qu’elles sont établies. La plupart des lignes directrices se rapportant à la conservation numérique recommandent de faire la collecte d’objets numériques en formats standard. Il reste que si les normes sont bien définies dans le cas des textes (p. ex., ASCII), des images (p. ex., JPEG, TIFF) et des documents en langage de marquage (p. ex., SGML, HTML), on n’a pas encore établi de normes au sujet de certaines autres formes d’information (p. ex., bases de données). De plus, les normes changent non seulement à toute vitesse, mais les distributeurs-fournisseurs, dans l’intention d’augmenter leur part de marché, ont intégré des caractéristiques « à valeur ajoutée » à des normes acceptées. On retrouve pour cette raison de l’information précieuse qui devrait être conservée dans des objets numériques non standard et « presque standard ». Les institutions qui font de la conservation numérique peuvent aussi faire l’objet de normalisation. Le Task Force on Digital Archiving du Research Libraries Group, par exemple, propose « un processus formel d’accréditation, selon lequel les archives numériques répondent aux normes et critères établis par un organisme d’accréditation indépendant ou les excèdent 6» [traduction]. Dans une même ligne de pensée, l’Organisation internationale de normalisation (ISO) a produit un modèle de référence (CCSDS 650.0-W-4.0), se rapportant au Open Archival Information System (OAIS) (système ouvert d’information archivistique) 7. Le modèle établit les exigences minimales d’archives numériques pour assurer la conservation à long terme de l’information numérique et institue un cadre de travail permettant de décrire et de comparer l’architecture archivistique et son fonctionnement. Un consortium de bibliothèques européennes a adopté l’OAIS comme modèle de référence pour la Networked European Depository Library (NEDLIB). Le modèle est également adopté par des initiatives de conservation numérique au R.-U. et en Australie. 6.2 Élaborer des lignes directrices sur la conservation numérique Des organismes d’archives et de conservation de dossier en Europe, en Amérique du Nord et en Australie ont pris l’initiative de développer des meilleures pratiques et des exigences fonctionnelles à l’égard de certaines questions de conservation 8. On retrouve des éléments communs, dont la nécessité : Certaines bibliothèques ont élaboré des lignes directrices similaires. Par contre, un sondage récent concluait que la plupart des lignes directrices sur la conservation numérique portent sur la création, la réception et la saisie d’objets numériques et n’aborde pas de façon satisfaisante leur conservation à long terme 9. Bien que les lignes directrices actuelles n’abordent pas complètement les besoins de conservation à long terme, la conservation des objets numériques dans un autre domaine est bien documentée. Les lignes directrices nous dictent comment entreposer et traiter les objets numériques en format physique et comment gérer le risque. Ces mesures maximisent la possibilité de déplacer les ressources au fur et à mesure des innovations technologiques et fonctionnent bien à court terme. Malheureusement, ces mesures ne sont pas en soi suffisantes pour assurer l’accessibilité à long terme aux documents. 6.3 Documenter les ressources Un thème qui revient souvent dans les lignes directrices sur la conservation numérique concerne la documentation et la description de ressources électroniques. La nécessité de décrire aussi délibérément les ressources provient en partie du fait que les objets numériques ne portent pas en soi des évidences visibles de leur création et de leur utilisation (adresse bibliographique, reliure, ex-libris, notes marginales ou ruban adhésif) par rapport aux formats non électroniques. De telles indices orientent les décisions de conservation. Elles aident aussi l’utilisateur à déterminer que l’oeuvre est entière et intégrale ainsi qu’à comprendre sa provenance et le contexte dans lequel l’oeuvre a été conçue. 6.3.1 Métadonnées Une description d’un objet numérique consiste en des « données sur des données » ou des métadonnées. De telles données descriptives devraient inclure l’information contextuelle essentielle à la gestion à long terme de l’information électronique. Des éléments de métadonnées utiles à la conservation pourraient inclure : Les projets de conversion auraient recours à des éléments supplémentaires de métadonnées tels le support de saisie, la résolution, la compression, le matériel-source et le réalisateur (du document numérique). Les méthodes de métadonnées existants (p. ex., MARC, Dublin Core) fournissent dans certains cas de l’information de saisie, mais il n’existe pas de consensus sur quelle approche sera la plus apte à convenir à des fins de conservation. Dans le MARC, par exemple, certaines des données nécessaires sont saisies dans les zones de note qui peuvent ne pas utiliser un langage suffisamment précis ou cohérent pour permettre la recherche et le repérage subséquents de document. 6.3.2 Identificateurs uniques Un élément de description d’un objet numérique consiste à lui assigner un identificateur unique et constant. Un identificateur est un nombre, comme l’ISBN, qui est associé avec une instance particulière d’un objet numérique. Contrairement au localisateur URL, ce nombre ne dépend pas de la localisation de l’objet. Un identificateur d’objets numériques, unique et largement répandu, permettrait d’établir l’authenticité de l’objet parce que l’utilisateur y verrait la confirmation que la ressource saisie est bien la ressource citée. Ce chiffre permettrait aussi d’établir la relation entre les copies ou les versions d’objets numériques, puisque toute modification de l’original entraînerait la modification de son identificateur. On trouvera dans le document Glossaire des normes, des protocoles et des formats liés à la bibliothèque numérique 10 un aperçu des diverses règles de dénomination. Certaines organisations chargées de conservation numérique utilisent actuellement PURL (localisateur persistant de ressources uniformes), URN (localisateur de ressources uniformes) ou des identificateurs d’objet numérique modifiés. Jusqu’à ce jour, aucun identificateur singulier n’a reçu l’approbation internationale généralisée. 6.3.3 Relier les métadonnées au contenu Les métadonnées sont stockées soit en tant que partie intégrale du document qu’elles décrivent (p. ex., disposées dans un en-tête HTML) soit en tant que partie d’un fichier d’information séparé (p. ex., une notice MARC). Une méthode adoptée pour relier les métadonnées et l’objet numérique est de les regrouper. À cette fin, le modèle de référence de système ouvert d’information archivistique (OAIS), déjà mentionné, propose une « trousse d’information » qui est composée d’« information sur le contenu » et d’« information descriptive de conservation » 11. De manière similaire, un groupe de travail de la Society of Motion Picture and Television Engineers a élaboré un Universal Preservation Format (UPF) 12 (format de conservation universel), un mécanisme fichier-données qui a recours à une structure de contenant pour incorporer les métadonnées dans les objets numériques médiatiques. Bien que ce format ait avant tout été élaboré pour des données audiovisuelles, le principe qui sous-tend l’UPF pourrait avoir des applications plus grandes. 6.4 Élaboration de partenariats Pour mieux assumer la maîtrise de la conservation numérique, les bibliothèques et les archives peuvent aussi forger des partenariats. À titre d’exemple de consortiums de bibliothèques, nous mentionnerons le projet eLib (Bibliothèque électronique) au R.-U., la Digital Library Federation et le Research Libraries Group ARCHES (Archival Server and Test Bed) aux É.-U., la NEDLIB (Networked European Depository Library) en Europe et l’Initiative canadienne sur les bibliothèques numériques, pour le Canada 13. Ces groupes ont été fondés dans le but principal de former des bibliothèques numériques, dans lesquelles la gestion de la conservation est un composant essentiel. 6.5 Établir une infrastructure En dernier lieu, afin de mieux maîtriser la conservation d’objets numériques, les bibliothèques pourraient intégrer les exigences de conservation au développement des systèmes. La Australian National Library, par exemple, a entamé un projet de services numériques qui a pour but de développer des systèmes de gestion de ses collections numériques et de soutien coopératif et de mise en commun de l’accès 14. La Bibliothèque nationale du Canada a intégré des exigences de conservation à son projet d’infrastructure de bibliothèque numérique. La prochaine étape verra le développement des systèmes. 7. Prochaines étapes Grâce à l’élaboration de politiques ainsi qu’à l’établissement et la promotion de meilleures pratiques et de procédures permettant la sélection, l’acquisition, la description et le stockage d’objets numériques, les archives, les bibliothèques et d’autres encore ont fait les premiers pas vers la conservation de ces ressources. Les prochaines étapes ne sont pas encore bien définies. Pour minimiser les incertitudes entourant la conservation numérique, nous pouvons :
Nous n’avons pas encore trouvé le moyen de traiter de façon adéquate les problèmes liés à la conservation numérique. La rapidité de l’obsolescence technologique combinée à des supports de courte durée signifient que les collections doivent être gérées attentivement. Le seul fait de rassembler et d’« entreposer » d’importants travaux, une stratégie passive qui fonctionne dans une certaine mesure dans le cas des publications sur papier, ne suffit pas pour assurer que les objets numériques seront conservés à perpétuité. Bibliographie Bearman, David ; Trant Jennifer. -- Authenticity of Digital Resources: Towards a Statement of Requirements in the Research Process. -- D-Lib Magazine. -- (juin 1998) <http://sunsite.anu.edu.au/mirrors/dlib/dlib/june98/06bearman.html> Graham, Peter S. -- Long-Term Intellectual Preservation. -- Collection Management. -- Vol. 22, nos 3/4 (1998). -- P. 81-98 Hedstrom, Margaret. -- Digital preservation: a time bomb for Digital Libraries. -- (n.d.) Day, Michael. -- Metadata for Preservation. -- CEDARS Project Document AIW01. -- (3 août 1998). <http://www.ukoln.ac.uk/metadata/cedars/AIW01.html> (24 février 1999) National Library of Australia. -- PADI: Preserving Access to Digital Information .-- Site Web : <http://www.nla.gov.au/padi/> Rothenberg, Jeff. -- Ensuring the Longevity of Digital Information. -- (Rév. 22 février 1999). <http://www.clir.org/programs/otheractiv/ensuring.pdf> Task Force on the Archiving of Digital Information. -- Preserving digital information: report of the Task Force on Archiving of Digital Information. -- Commissioned by the Commission on Preservation and Access and the Research Libraries Group. -- Washington, D.C. : Commission on Preservation and Access, 1996. <http://www.rlg.org/ArchTF/> Remerciements Je tiens à remercier mes collègues de la Bibliothèque nationale du Canada, plus précisément Gary Cleveland, Susan Haigh et Nancy Brodie, d’avoir bien voulu réviser et suggérer des changements à apporter à cet article. __________Notes
1 Plusieurs de ces concepts (contenu, immuabilité, référence, contexte, provenance) sont tirés des travaux du Task Force on the Archiving of Digital Information, Preserving digital information: report of the Task Force on Archiving of Digital Information mandatés par la Commission on Preservation and Access et le Research Libraries Group, Washington, D.C., Commission on Preservation and Access, 1996. <www.rlg.org/ArchTF/> 2 Colin Webb, « Migration Trials: Migrating publications on floppy disk to CD-R », octobre 1997. <www.nla.gov.au/nla/staffpaper/cwebb7.html> (20 janv. 1999) 4 <www.news.cornell.edu/releases/Nov98/preserving.digital.bs.html> 5 On peut consulter le plein texte de ce rapport intitulé « Avoiding Technological Quicksand: Finding a Viable Technological Foundation for Digital Preservation », à l'adresse <www.clir.org/pubs/reports/reports.html> 6 Task Force on the Archiving of Digital Information, Preserving digital information: report of the Task Force on Archiving of Digital Information, commandé par le Commission on Preservation and Access et le Research Libraries Group, Washington, D.C., Commission on Preservation and Access, 1996, p. 21.
7 <ftp://nssdc.gsfc.nasa.gov/pub/sfdu/isoas/int07/CCSDS-650.0-W-4.pdf>
8 À titre d'exemple, consulter Martin Bangemann, Guidelines for best practices for using electronic information, Commission européenne, 1997. <www.echo.lu/dlm/en/gdlines.html>
9 Marc Fresko et Kenneth Tombs, Digital Preservation Guidelines: The state of the art in libraries, museums and archives, Communauté européenne, 1998. <www.echo.lu/digicult/en/backgrd.html>
10 Susan Haigh, « Glossaire des normes, des protocoles et des formats liés à la bibliothèque numérique », Flash Réseau no 54, 6 mai 1998. <www.nlc-bnc.ca/pubs/netnotes/fnotes54.htm>
11 Consultative Committee for Space Data Systems, Reference Model for an Open Archival Information System (OAIS), éd. L. Reich et D. Sawyer, CCSDS 650.0-W-3.0, White Book, 17 septembre 1998, p. 17.
12 Page d'accueil UPF : <info.wgbh.org/upf/>
13 Consulter le résumé dans l'article suivant : Nancy Brodie, « Collaboration entre les bibliothèques nationales en vue de conserver l'information numérique », Nouvelles de la Bibliothèque nationale, vol. 31, nos 3-4, mars-avril 1999, p. 5-6 <www.nlc-bnc.ca/pubs/nl-news/1999/mar99f/mar99f.htm>
14 On peut trouver une description du projet et de la documentation à l'appui à <www.nla.gov.au/dsp/>.
|