La Lettre du bibliothécaire québécois
Numéro 14 - Octobre-Novembre 1998

 
Retour au sommaire du numéro 14 


Retour à la page d'accueil de la LBQ 


Ecrivez à la LBQ 
 
 


L'Agence Science-Presse est fière d'héberger La Lettre du bibliothécaire québécois 
 
3. DOSSIERS
 
 
LE PROJET “MAKING OF AMERICA”
 
par Guy Teasdale [ guy.teasdale@bibl.ulaval.ca ]
 
Avant d'entreprendre un projet de numérisation il convient d'examiner ce qui se fait ailleurs. Dans cette chronique je voudrais vous parler d'un des projets les plus intéressants que je connaisse, le projet Making of America (MOA)
 
Précisions sur l'appellation MOA
 
Plusieurs projets portant la même appellation sont en préparation et risquent de causer une certaine confusion chez le lecteur. Ainsi, vous entendrez parler sous peu de MOA-2, MOA-3 et même MOA-4, . Il est important de préciser que ce sont des projets distincts, avec des objectifs distincts et des partenaires distincts.
 
Par exemple, l'Université du Michigan ne participe même pas à MOA-2 qui sera consacré plus spécifiquement aux métadonnées et à l'encodage qui sont nécessaires pour la recherche, l'affichage et la navigation dans des objets numérisés. Le thème de MOA-2 porte sur "les Transports 1869-1900", particulièrement le développement du chemin de fer et sa relation avec le développement des États-Unis. L'expérience MOA-2 est subventionnée par le National Endowment for the Humanities depuis juillet 1998. MOA-2 est basé à l'Université de Californie à Berkeley et regroupe 5 bibliothèques sous l'égide de la Digital Library Federation (Cornell,  New York Public Library, Pennsylvania State University, Stanford, Berkeley) http://sunsite.Berkeley.EDU/moa2/ . Je n'ai pas de renseignements sur MOA-3 mais je présume qu'il existe un tel projet puisque l'Université du Michigan vient de présenter une demande de subvention en septembre 1998 pour MOA-4! Ces précisions étant faites, revenons au projet MOA original.
 
MOA-1
 
MOA est un projet conjoint de l'Université du Michigan et de l'Université Cornell qui a débuté à l'automne 1995 grâce à une subvention initiale de la fondation Andrew W. Mellon de New York (fondation très active dans les projets de numérisation). La portion du projet réalisée à Cornell peut être consultée à http://moa.cit.cornell.edu/ . Cornell s'est consacré à la numérisation de périodiques (900 000 pages) et a mis l'emphase sur la qualité "archivistique" de la reproduction en format image image (en s'appuyant notamment sur l'expertise et les travaux de Anne Kenney). Michigan, de son côté,  a numérisé environ 1600 monographies et 50 000 articles de périodiques, le tout correspondant à plus de 634 000 pages images. Ces deniers se sont surtout attardés à développer l'aspect de l'accès en texte intégral aux images (en s'appuyant sur des expériences antérieures développées à l'Université du Michigan: Le projet Tulip, le projet JSTOR, les travaux du Humanities Text Initiative etc.).
 
Bien qu'il s'agisse d'un projet conjoint, les travaux des deux entités (Michigan et Cornell) ont progressé et se sont développés séparément, suivant leurs champs de compétences respectifs; la priorité est maintenant l'intégration dans une seule et même bibliothèque numérique.
 
Le projet initial MOA est terminé mais l'Université du Michigan compte continuer à l'enrichir à partir de son immense corpus documentaire de documents anciens non encore numérisés, et aussi par l'intermédiaire de son programme de conservation des documents  "friables" (brittle book program). La reste de ce texte s'attardera à décrire la portion de MOA-1 qui a été réalisée à l'Université du Michigan http://www.umdl.umich.edu/moa/ 
 
MOA poursuivait deux buts principaux:  1) la conservation et 2) la diffusion d'un important corpus de ressources primaires sur l'histoire sociale des États-Unis. La période choisie commence avant la guerre civile et va jusqu'à la reconstruction (1850-1877) et porte sur les sujets suivants: éducation, psychologie, histoire américaine, sociologie, religion, et science et technologie. Plusieurs raisons motivaient ces choix, raisons qui sont d'ailleurs similaires pour de nombreux projets de numérisation:
 
? l'Université du Michigan possédait un corpus de plus de 27 000 documents anciens pour la période 1850-1899, il était donc facile de faire une sélection intéressante et cohérente à travers un aussi vaste corpus. 
? les publications n'étaient plus couvertes par le copyright
? l'intérêt académique et du grand public à propos de cette période (et de ces sujets) est élevé
? ces documents se détérioraient rapidement et un effort de conservation devait être fait.
 
Affichage des documents
 
Les documents disponibles dans MOA ne s'affichent qu'en format image, comme on le verra plus loin. L'Interface permet de naviguer dans le document page par page ou d'aller à une page précise. Ces documents ont subi AUTOMATIQUEMENT un encodage sommaire avec une DTD d'une quarantaine d'éléments conforme aux normes du Text Encoding Initiative (TEI). C'est ce qu'ils appellent l'encodage "cru" (raw). Dans certains cas vous pouvez tomber sur des documents "cuits" (cooked); ces documents ont subi un traitement manuel plus complet: les fichiers résultants de la reconnaissance optique des caractères ont été corrigés et l'encodage SGML a été raffiné. Dans les documents "cuits", une table des matières en HTML permet une navigation plus performante dans la structure du livre avec des liens vers les pages images. Quand les ressources le permettront, le système prévoit que tous les documents seront "cuits" et ce, sans changer de DTD. C'est donc un système prévu pour évoluer. 
 
Le cadre restreint de cet article ne permet pas de présenter l'interface de recherche et d'affichage. Nous vous invitons cependant à l'essayer et à constater de visu la puissance et la précision de cette recherche en texte intégral qui vous conduit non seulement au document traitant de votre sujet mais aussi aux pages qui traitent de votre sujet. Pour plus de détails sur la recherche et l'affichage, voir: Shaw, Elizabeth J et Blumson, Sarr. Making of America; Online Searching and Page Presentation at the University of Michigan. D-Lib Magazine, July/August1997. http://www.dlib.org/dlib/july97/america/07shaw.html
 
Premiers résultats de la mise en ligne
 
MOA s'avère être un succès. Ces documents, qui auparavant étaient entreposés et inutilisés, font maintenant l'objet de 120 000 recherches par mois et les usagers affichent plus de 75 000 pages par mois. Le modèle MOA est aussi adopté par d'autres membres de la Digital Library Federation. Ce modèle est même exporté hors des États-Unis: le projet Notre mémoire en ligne http://www.nlc-bnc.ca/cihm/ecol/francais/accueil.htm , s'appuie en effet sur les travaux réalisés au Michigan.
 
Les concepteurs du projet visaient d'abord un public de chercheurs et ont été surpris de l'accueil du public en général: généalogistes, sociétés littéraires, étudiants de tous les niveaux etc.
 
Architecture du système
 
L'architecture du système MOA repose sur trois principes. 
 
1. Le système doit permettre un traitement ultérieur des documents (par exemple encodage SGML complet, correction des fichiers de ROC etc.) ou encore, doit permettre de modifier le mode d'accès advenant l'apparition de meilleures technologies. De fait certains documents ont été et seront retravaillés pour corriger les fichiers de ROC, compléter le balisage SGML et permettre l'accès en mode texte et non plus seulement image (= accès beaucoup plus rapide, réutilisation plus grande).
2. Le système doit pouvoir accepter des ajouts de documents sans que la performance ne soit affectée. Les mécanismes d'accès et d'affichage doivent pouvoir soutenir l'augmentation du contenu.
3. Le système doit être utile et permettre un comportement similaire au comportement d'usagers dans une bibliothèque traditionnelle : on doit pouvoir faire des recherches fines par sujet, du général au spécifique,  mais également, on doit pouvoir bouquiner et s'amuser à découvrir en parcourant les "rayons virtuels", tout comme dans une bibliothèque. Il s'agit de rendre les substituts numériques tout aussi acceptables que les originaux. 
 
Processus de conversion
 
Les documents sont numérisés (scanned) à partir des originaux sur papier auxquels on a enlevé la reliure. Ces volumes qui ne sont plus reliés sont maintenant conservés dans des boîtes d'archives en attendant une décision finale concernant leur élagage. La numérisation a été accordée à une compagnie extérieure, suite à un appel d'offre. Les images sont capturées à 600 dpi (600 points par pouce) en format TIFF bitonal puis compressés suivant la norme CCITT groupe 4. Ce fichier TIFF sert de copie d'archivage. Un balisage minimal est effectué lors de la numérisation afin de permettre de lier le numéro de l'image à la pagination correspondante  dans l'ouvrage et permettre d'identifier certaines parties du texte comme la table des matières ou l'index. Une fois que les images reviennent du sous-traitant, on effectue un contrôle de qualité. 
 
Reconnaissance optique des caractères
 
On effectue une reconnaissance optique des caractères (ROC) sur chaque page-image afin de produire du texte ASCII qui soit indexable. Les métadonnées insérées lors de la numérisation permettent de produire une en-tête (TeiHeader) balisée en SGML qui servira au moteur de recherche. Cette en-tête est conforme à la DTD du TEI (Text Encoding Initiative). 
 
Le système de ROC tel qu'implanté permet une grande flexibilité. En effet, les logiciels de ROC ont subi 2 améliorations majeures depuis le début du projet, On a tout d'abord utilisé le logiciel ScanWorx de Xerox et, lorsqu'est apparu le logiciel Prime, http://www.primerecognition.com  qui donnait de meilleurs résultats, tous les fichiers images ont été resoumis à la ROC. Ces logiciels permettent des reconnaissances aux alentours de 99% (Un autre projet originant de l'Université du Michigan, JSTOR,  a un taux de 99.95%, c'est à dire une erreur à tous les 2000 caractères). C'est évidemment très bon et même suffisant pour produire des index de qualité en texte intégral mais c'est insuffisant pour afficher ces textes; les concepteurs estiment qu'une ou deux erreurs par page indisposerait le lecteur. On travaille actuellement à développer des méthodes d'échantillonnage qui permettraient de contrôler la qualité des fichiers sans avoir à faire examiner les pages par des humains (voir: Bicknese, Douglas A. Measuring the Accuracy of the OCR in the Making of America (1998) http://www.umdl.umich.edu/moa/moaocr.html )
 
Affichage "à la volée" 
 
Le format TIFF n'est pas très courant sur le World Wide Web, on rencontre surtout des images en format GIF ou JFIF, avec compression JPEG. De plus, la résolution classique des images sur le Web est de 72 dpi, ce qui donne des fichiers beaucoup plus "transmissibles" que des pages images de très haute qualité à 600 dpi! C'est pourquoi le système MOA prévoit la conversion "à la volée", à différents niveaux de résolution, des images TIFF vers le format GIF. Un logiciel de conversion appelé "Tif2gif" a été développé à l'Université du Michigan pour deux raisons qu'explique John Price-Wilkin dans 
Price-Wilkin, John. Just-in-time Conversion, Just-in-case Collections: Effectively leveraging rich document formats for the WWW (1997).  D-Lib Magazine, May 1997. URL http://www.dlib.org/dlib/may97/michigan/05pricewilkin.html 
 
1. Les collections numérisées suivent le modèle des collections papier dans nos bibliothèques traditionnelles: parfois des ouvrages peuvent rester longtemps sur les tablettes sans être utilisés. Si on créait des  formats dérivés en GIF systématiquement, on risquerait de travailler pour rien tout en occupant un grand espace sur disque (n'oublions pas qu'on parle ici d'une collection de 650 000 pages qui serait représentée à 3 niveaux de résolution, soit près de 2 millions de fichiers images)
2. Ça permet également une flexibilité. Si un nouveau format fait son apparition sur le web et permet une meilleure performance, il sera possible de développer un nouveau convertisseur "Tif to … le nouveau format", sans devoir recréer des millions de nouvelles pages images au nouveau format.
 
Conclusion
 
Pourquoi parler de ce projet dans la Lettre du bibliothécaire québécois? D'abord parce que MOA a été réalisé par des bibliothécaires: le gros de la programmation, le design du système, la gestion du processus de ROC, le développement de l'interface; tout a été conçu par des bibliothécaires suivant des normes reconnues en sciences de l'information et dans une optique de service au public chère à la bibliothéconomie traditionnelle.
 
Les modèles de traitement mis en place à l'Université du Michigan peuvent servir à tous les projets de numérisation d'envergure. Comme c'est le cas dans plusieurs projets de bibliothèques virtuelles, MOA a produit quantités de documents techniques qui enrichissent notre palette de choix de modèles et contribuent à la définition des meilleures pratiques en matière de numérisation.
 
1. Ce texte résulte de conversations avec John Price-Wilkin et de la consultation d'un article inédit de Maria Bonn qui paraîtra sous peu dans "The Evolving Virtual Library: More Visions and Case Studies," Laverna Saunders, ed.  Information Today, Inc. Qu'ils en soient ici sincèrement remerciés.
 
 
Pour revenir au sommaire du numéro quatorze...