PAGE D'ACCUEILRECHERCHEINDEX DU SITEREMARQUESENGLISH
Publications*

L'Initiative d'encodage de texte (IET)

par Sheila Comeau, consultante
Flash Réseau no59
ISSN 1200-5304
Services de technologie de l'information
Bibliothèque nationale du Canada

Le 6 janvier 1999


1.0 Introduction

En 1987, un groupe d'experts en sciences humaines s'est réuni au Vassar College pour convenir d'un système d'encodage électronique de texte « non-propriétaire » qui pourrait s'appliquer de manière cohérente aux textes savants. Cette norme d'encodage faciliterait l'interprétation par machine du matériel provenant des sciences humaines tel que les vers, les lettres et les dictionnaires. Le groupe d'experts du Vassar College a déterminé certains principes de base pour le système, notamment qu'il devrait donner les éléments textuels nécessaires à la recherche, permettre le traitement élaboré et efficace du texte, être clair et facile à utiliser pour les chercheurs et être compatible avec les normes existantes ou émergentes, quand cela est nécessaire.

En mai 1994, on a établi le premier ensemble de lignes directrices qui forme la base de la normalisation émergente de l'Initiative d'encodage de texte (IET). Les Lignes directrices de l'IET ont fourni un cadre flexible et une norme pour la préparation de textes sous forme électronique qui pourrait être interchangeable sur de multiples plates-formes, applications et réseaux. Plusieurs groupes, notamment l'Association of Computers and the Humanities (ACH), l'Association for Computational Linguistics (ACL), l'Association for Literary and Linguistic Computing (ALLC) et le Conseil de recherches en sciences humaines et sociales du Canada, ont appuyé cette norme.

2.0 Règles de base de l'IET

On a fondé les règles et les recommandations du système d'encodage IET sur le SGML (Langage standard généralisé de balisage). On décrit souvent le SGML comme étant la « grammaire » régissant le balisage d'un ensemble général de documents. Tout document SGML doit suivre certaines règles selon lesquelles on peut étiqueter des éléments d'un document et établir la relation que ces éléments ont entre eux. On écrit ces règles en employant la « grammaire » SGML, pour former ce que l'on nomme une définition de document type.

La définition de document type sert de modèle pour définir le contenu et la structure de divers éléments qui apparaissent en un ensemble précis de documents SGML structurés de façon semblable. On a écrit plusieurs définitions de document type pour répondre aux besoins de différents types de documents (p. ex., des manuels, des blocs-notes, des procès-verbaux et des notices d'archives ). Les Lignes directrices de l'IET établissent le définition de document type de l'IET en utilisant différents ensembles d'éléments et leurs marqueurs correspondants en commençant par l'ensemble principal ou général de marqueurs, lequel peut s'appliquer à la plupart des documents. Les Lignes directrices fournissent également divers ensembles d'éléments pour différents types de documents (p. ex., vers, prose, théâtre, dictionnaires). Ils sont définis dans les marqueurs de base. En réalité, la définition de document type de l'IET est composée de marqueurs principaux, d'un marqueur de base déterminé, et il peut aussi comprendre des marqueurs supplémentaires ou auxiliaires.

3.0 En-tête IET

L'en-tête IET est un composant du marqueur principal de la définition du document type. L'en-tête fournit les données bibliographiques du document IET, qui comprend la description du fichier (le titre, la mention de responsabilité et la source), la description d'encodage (approches utilisées dans la transcription ou l'encodage de texte et dans la description du projet d'encodage), le profil de texte (l'information liée au sujet du document, la classification et les langues employées dans le document), ainsi que l'historique de révision du document.

4.0 IET, IET léger ou IET dépouillé

Les Lignes directrices de l'IET représentent 1 300 pages d'options d'étiquetage pour divers types de documents. Pour certains, cela constitue une introduction plutôt décourageante à l'encodage de textes électronique. On a développé une version simplifiée de la norme appelée IET léger pour donner accès à un sous-ensemble plus facile à gérer de l'ensemble étendu d'éléments du SGML du système entier. L'IET léger comprend la plupart des marqueurs principaux; il couvre une grande variété de textes, il peut être utilisé avec une vaste gamme de logiciels SGML et il provient de l'ensemble de définition de document type de l'IET qui emploie les mécanismes d'extensions décrits dans les Lignes directrices de l'IET. L'IET léger a été adopté par l'Oxford Text Archive, par l'Electronic Text Centers de l'Université de Virginia et par l'Université du Michigan.

Un sous-ensemble encore plus petit du système entier, qui se nomme IET dépouillé, a été publié en août 1994. Il comprend environ le même nombre de marqueurs que dans la version originale HTML et il est considéré comme étant trop limité pour valoir de sérieux efforts d'encodage. L'IET dépouillé a été conçu avant tout comme outil d'apprentissage.

5.0 Envoi de documents IET

Pour consulter les documents IET dans leur format SGML d'origine, on doit les ouvrir en utilisant un explorateur ou un visualisateur SGML. Le visualisateur SGML interprète le balisage qui suit les paramètres de la définition de document type de l'IET et les autres fichiers de soutien qui tracent les règles de la mise en page et du contenu. On peut configurer un explorateur Web standard pour lancer le visualisateur SGML quand on sélectionne un fichier IET sur un site Web.

Étant donné que de nombreux utilisateurs ne possèdent pas de logiciel de visualisation SGML, plusieurs projets de l'IET assurent une version HTML de leurs documents IET en SGML. Bien qu'une part importante de la richesse et de la souplesse du texte soit perdue dans la conversion du SGML au HTML, le système principal peut prendre en charge plusieurs des aspects de balisage du SGML « à valeur ajoutée », tels que l'indexation sophistiquée, le contrôle bibliographique, la recherche et le repérage d'un niveau de zone et l'échange de document.

6.0 Investir dans l'IET

Entreprendre le développement d'une collection IET entraîne des investissements substantiels. Une infrastructure d'outils SGML est nécessaire afin de soutenir un projet IET, notamment des services de numérisation, d'encodage, d'analyse syntaxique, de conversion, d'indexation, de recherche et de repérage. Divers gratuitiels, partagiciels et outils offerts commercialement sont disponibles et il semble qu'il faudra avoir recours à une mosaïque de programmes afin de préparer et de diffuser la collection SGML. Il faudra aussi de nouveaux équipements tels des scanners et des serveurs spécialisés. L'investissement au niveau de la formation du personnel fait également partie du tableau. On devra aussi élaborer des ateliers et des documents de soutien sur la préparation de texte, les procédures de publication, les questions de conservation, les modifications du déroulement des activités et les mises à jour.

Des systèmes de recherche et de repérage SGML spécialisés peuvent exiger l'intégration des ressources institutionnelles existantes, telles les sites Web et les catalogues en direct, de façon à améliorer l'accès à la collection et sa visibilité. On devra examiner des questions qui se rapportent à l'indexation et à l'utilisation de vocabulaires contrôlés pour correspondre entre plusieurs systèmes afin de rationaliser, dans la mesure du possible, les opérations de recherche et de repérage. On pourra établir des mécanismes automatiques qui serviront à produire des notices MARC à partir des en-têtes IET pour les inclure dans le catalogue public en direct (OPAC).

On devra établir des politiques en ce qui concerne l'entretien des fichiers (documentation des erreurs, mises à jour et révisions). Il faudra sans doute examiner les nouvelles exigences des utilisateurs concernant l'impression, la sauvegarde et l'envoi de fichiers IET. Une multitude d'autres questions particulières à une situation pourront apparaître qui exigeront des investissements, de la formation, le développement de systèmes ou des modifications de flux de travail et de politiques.

On ne doit pas entreprendre de projet IET sans d'abord effectuer une analyse approfondie des exigences des utilisateurs cibles. L'étude pourrait révéler qu'il serait possible de répondre à la plupart des exigences de recherche de texte électronique sans y investir autant d'efforts sophistiqués de numérisation. Les coûts relatifs à la mise en oeuvre d'une infrastructure SGML ne favorisent pas les entreprises d'IET en tant qu'objet de financement spécial ponctuel. Comme c'est le cas pour d'autres projets SGML, la réussite des initiatives d'encodage dépend de dispositions de financement à long terme.

7.0 Conclusion

Sans la résolution attentive des questions d'intégration et de soutien, l'investissement relatif à l'IET pourrait facilement créer un éléphant blanc électronique. Cette entreprise exige un engagement important envers différents domaines de ressources et de services et on devra bien comprendre les avantages et les coûts qui y sont reliés. Il importe d'investir de façon soutenue pour conserver, améliorer et promouvoir le service offert aux clients de la bibliothèque.

8.0 Pour obtenir de plus amples renseignements :

Page d'accueil IET
http://www-tei.uic.edu/orgs/tei/

Page de métadonnées de l'IFLA
http://www.ifla.org/II/metadata.htm#tei


Droit d'auteur. La Bibliothèque nationale du Canada. (Révisé : 1999-1-28).