Introduction au World Wide Web

par Gary Cleveland

Flash Réseau Numéro 7
ISSN 1200-5304
Services de technologie de l'information
Bibliothèque nationale du Canada

mars 1995

1. Qu'est-ce que le World Wide Web?

Aussi connu sous le nom de WWW, W3, ou simplement le Web, le World Wide Web est un des divers outils de navigation conçus pour permettre aux utilisateurs d'accéder aux informations d'Internet et de les structurer, et de publier des informations dans le réseau. Développé en 1989 dans un laboratoire de physique corpusculaire de la Suisse, le CERN, le WEB est depuis devenu l'outil de navigation le plus puissant et le plus populaire d'Internet. En bref, il s'agit d'un système de traitement de l'information hypertexte, multimédia et distribué, qui crée des liens avec des documents hypertextes et assure la liaison avec de nombreux autres outils et bases de données d'Internet. Le présent article est une introduction au World Wide Web; on en décrit les principales caractéristiques et le fonctionnement, et l'on explique pourquoi le Web peut jouer un rôle important dans une bibliothèque.

2. Quelles sont les principales caractéristiques du Web?

Le Web comporte un certain nombre de caractéristiques qui y sont exclusives et en font le système d'information le plus perfectionné qui ait fait partie d'Internet à ce jour. Ces caractéristiques sont décrites ci-dessous.

Le Web est un système hypertexte. Le Web diffère du système à base de menus hiérarchisés du serveur Gopher d'Internet en ce qu'il s'agit d'un système hypertexte dans lequel les utilisateurs passent d'un document à un autre document traitant du même sujet par l'entremise de liens(un mot ou une locution peut constituer un lien, par exemple). Lorsque l'utilisateur choisit un lien, il accède à un autre document qui traite du sujet qui l'intéresse. Au lieu d'aller de menu en menu, comme il le ferait dans Gopher, l'utilisateur du Web passe directement d'un document à un autre en cliquant sur un lien hypertexte.

Le Web est un système multimédia. Avant la venue des explorateurs graphiques (comme Mosaic et Netscape, dont il sera question plus loin), la plus grande partie des informations accessibles sur Internet était présentée sous forme de texte ASCII; il s'agissait donc de texte simple dépourvu de tous les éléments qu'on retrouve généralement dans une page imprimée (titres en gros caractères, italiques, images ou autre contenu graphique). Grâce aux explorateurs graphiques, le Web est devenu un système multimédia, c'est-à-dire un système qui permet de regrouper plusieurs médias dans un seul document. Ainsi, un document Web peut contenir les éléments suivants :

texte ordinaire,
caractères spéciaux (gros caractères, caractères gras et italiques, par exemple) et retraits
images (graphiques, logos fantaisistes et illustrations, par exemple)
séquences audio (sons, musique, commentaires et messages vocaux, par exemple)
séquences vidéo (séquences de films, animations et simulations générées par ordinateur, par exemple).

Le Web est un système de traitement distribué. De façon générale, les documents mémorisés dans un système hypertexte sont tous réunis au même endroit, sur un disque dur ou un CD-ROM, par exemple. Dans le Web, les documents peuvent être stockés dans toutes les mémoires reliées au réseau, peu importe si elles se trouvent juste à côté, dans une autre partie de la ville ou à l'autre bout du monde. Même si l'utilisateur a l'impression que les pages qu'il est en train de lire proviennent toutes du même endroit, il est possible qu'elles aient été reçues de partout dans le monde. C'est ce qui fait du Web est système hypertexte distribué : les documents qui y sont mémorisés peuvent être distribués dans tout le réseau.

D'autres outils d'Internet sont intégrés au Web. Le Web peut assurer la liaison avec d'autres outils d'Internet comme WAIS, Gopher, FTP et TELNET. Ainsi, une page Web portant sur un sujet particulier peut renvoyer à une autre ressource d'Internet, peu importe si celle-ci est accessible par l'entremise de Gopher, de TELNET ou d'un FTP. Le Web et ses explorateurs constituent donc une méthode d'accès direct aux informations qui sont mises à la disposition des utilisateurs.

Le Web assure l'interface avec d'autres systèmes de bases de données. Une des fonctions les plus puissantes des explorateurs du Web, c'est leur capacité d'agir comme interface avec des systèmes de bases de données reliés à Internet (WAIS, Z39.50 et les bases de données de bibliothèques, par exemple). Il faut trois éléments pour créer cette interface : d'abord, un explorateur Web qui fait appel à la fonction de traitement des formulaires pour recueillir les informations des utilisateurs (des boîtes interactives sont affichées dans les pages Web et l'utilisateur y entre des informations ou choisit des options); ensuite, un système de base de données (un catalogue de bibliothèque, par exemple); pour terminer, une interface CGI (common gateway interface) qui relie l'explorateur du Web et la base de données. Lorsqu'un demande a été traitée, l'interface CGI renvoit les résultats obtenus à l'explorateur dans un format qu'il peut afficher.

3. Comment fonctionne le Web?

Pour bien comprendre les mécanismes qui sont à la base du Web, il faut assimiler un certain nombre de concepts dont les plus importants sont les suivants : l'architecture client/serveur, le protocole HTTP (protocole de transfert hypertexte), le langage HTML (langage de balisage hypertexte) et les URL (localisateurs de ressources uniformes). Ils sont décrits dans les pages qui suivent.

Architecture client/serveur
Comme la plupart des outils Internet, le Web est fondé sur le modèle client/serveur, c'est-à-dire que deux programmes (les deux moitiés complémentaires d'un système) travaillent ensemble pour accomplir une tâche spécifique. Les logiciels installés dans l'ordinateur de l'utilisateur et dans l'ordinateur éloigné sont respectivement le client et le serveur. Dans le cas du Web, leur tâche consiste à explorer des documents hypertextes et à examiner des sources d'informations. Le client demande les documents électroniques et les affiche, tandis que le serveur mémorise les documents et les transmet au client.

Les utilisateurs peuvent faire appel à plusieurs interfaces clients ou explorateurs pour parcourir le réseau Internet; le plus important d'entre eux est Mosaic, un système qui a été développé par le National Center for Supercomputing Applications (NCSA). Si pour la plupart des gens les noms de systèmes Mosaic et World Wide Web sont devenus presque interchangeables, c'est qu'en réalité, c'est le développement de Mosaic, le premier explorateur graphique de Web, qui a fait de WWW le système qu'il est aujourd'hui. Bien que connexes, le Mosaic et le Web sont cependant deux systèmes différents. Le Web regroupe tous les serveurs Web du réseau Internet, tandis que Mosaic est un seul exemple de client Web. Voici une liste des clients Web pour Windows les plus connus :

Mosaic. À un certain moment, l'interface graphique Mosaic développée en 1993 par le National Center for Supercomputing Applications de l'université de l'Illinois était le plus important des clients Web. Toutes les interfaces qui ont précédé Mosaic permettaient simplement la transmission de texte ligne par ligne. Il s'agissait d'un système hypertexte qui n'était ni graphique ni multimédia. Lorsqu'une version de Mosaic pour Windows a été offerte gratuitement aux utilisateurs d'Internet, le Web est soudainement devenu le système d'information le plus populaire du réseau, tellement il était plus puissant que les autres.
Cello et WinWeb. Ces deux autres interfaces clients pour Windows sont très semblables à Mosaic; les quelques petites différences qui les distinguent sont de nature fonctionnelle.
Netscape. Le plus récent des explorateurs du Web, NetScape a été développé par les gens qui ont créé Mosaic au NCSA puis ont quitté l'organisme pour fonder leur propre société et mettre au point un produit compétitif. À peu de choses près, NetScape comporte les mêmes fonctions que Mosaic et les autres explorateurs. Voici quelques-unes des principales différences entre les deux :

Netscape traite les images beaucoup plus rapidement que Mosaic (dans Mosaic, le chargement des images est en effet très lent).
Netscape utilise une version améliorée du langage HTML (voir la description ci-dessous). Pour le moment, les mises en forme et mises en page que peut supporter le HTML sont limitées. Les concepteurs de Netscape ont décidé d'améliorer le HTML de façon à permettre un meilleur contrôle de l'apparence des documents. Cette démarche a suscité une certaine controverse puisque ce faisant, les concepteurs se sont éloignés de la norme HTML et ont commencé à créer une norme propriétaire que seuls les explorateurs Netscape peuvent exploiter à fond.

Lynx. Lynx est une interface plein écran et à base de texte qui assure la liaison avec le Web. Pour choisir des éléments dans une page, l'utilisateur se sert des touches avec flèches, des touches de tabulation et du curseur plutôt que de la souris. Comme il ne s'agit pas d'une interface multimédia, Lynx ne permet pas la visualisation des images, des icônes, des plans ni des autres éléments graphiques.

Protocole HTTP (Protocole de transfert hypertexte)
Pour être en mesure de communiquer, les clients et les serveurs d'un réseau doivent utiliser un langage commun; dans le Web, ce langage est le protocole HTTP (protocole de transfert hypertexte). Comme le protocole Gopher, le protocole HTTP est plutôt simple; les documents et les éléments qui en font partie (c'est-à-dire le texte et les images) sont transférés par transmissions séparées et brèves. Lorsque toutes les parties voulues d'un document ont été reçues, la liaison est interrompue et il n'y plus d'interaction avec le serveur avant la présentation d'une nouvelle demande.

Langage HTML (langage de balisage hypertexte)
Les documents qui sont stockés dans le Web sont codés en langage HTML (langage de balisage hypertexte). Le HTML est une dérivation du langage SGML (langage standard généralisé), qui constitue la norme pour l'ajout des étiquettes identifiant certains éléments d'un document comme les en-têtes, les sous-titres, les chapitres, les paragraphes et les annexes.

Comme le SGML, le HTML sert à décrire la structure d'un document. Un certain nombre de codes HTML intégrés au texte du document fournissent au Web des informations explicites qui lui indiquent comment il doit interpréter le document. Par exemple, si une partie du texte est précédée et suivie d'un code d'en-tête (<h1>Ceci est un titre</h1>, par exemple), le client sait qu'il doit afficher ce groupe de mots sur une ligne séparée, en gros caractères et en gras. Parmi les autres informations que les codes HTML fournissent au client Web, notons les suivantes :

le genre de caractères (gras ou italiques),
les changements de ligne et de paragraphe,
la présence d'images ou de graphiques et l'endroit où ils doivent être insérés,
les mots et les locutions qui constituent des liens avec d'autres documents Web, la source d'information à laquelle ce lien renvoie et la position de cette source.

En résumé, le HTML décrit de façon explicite les diverses parties d'un document hypertexte et multimédia, et le client Web se sert de ces informations pour créer un document à l'écran de l'utilisateur.

URL (localisateurs de ressources uniformes) et liens hypertextes
Qu'en est-il des liens eux-mêmes? Ils sont basés sur la norme URL (localisateurs de ressources uniformes). Chaque localisateur contient toutes les informations dont le client a besoin pour retrouver et télécharger un document HTML. Voici un exemple d'URL :

http://www.zodiac.ca/htdocs/home.html Il comprend quatre parties, comme suit :

le protocole utilisé pour établir la liaison avec le serveur éloigné. Dans l'exemple ci-dessus, il s'agit du protocole HTTP, le protocole utilisé dans le cas du serveur Web. Les autres protocoles possibles sont Gopher, FTP et TELNET (le protocole choisi correspond à l'outil du réseau Internet avec lequel la liaison a été établie;
l'adresse Internet du serveur où se trouve le document. Dans ce cas-ci, l'adresse est www.zodiac.ca;
Le répertoire du serveur dans lequel le document est mémorisé (chemin du document), /htdocs, dans notre exemple;
le nom de fichier du document, dans ce cas-ci, home.html (l'extension html indique que le document est codé en langage HTML).

4. Comment faut-il procéder pour trouver des informations dans le Web?

Il faut des outils de recherche efficaces pour exploiter le vaste espace d'informations que le Web est rapidement en train de devenir. De la même façon que le programme Veronica est né d'un besoin d'effectuer des recherches dans un système toujours croissant de Gophers, un certain nombre d'outils conçus pour faciliter les recherches dans le Web ont fait leur apparition. Ceux auxquels on fait appel le plus souvent sont connus sous le nom de "robot", "wanderer" et "spider". Ces systèmes se déplacent dans le réseau et recherchent automatiquement des éléments divers dans les documents HTML (des titres, par exemple), ils tentent de repérer des mots-clés et établissent des index. L'utilisateur interagit avec eux par l'entremise d'un explorateur du Web. La fonction de traitement des formulaires lui permet d'entrer les mots qui doivent faire l'objet d'une recherche, de limiter le nombre d'occurrences et d'entrer d'autres informations que le "robot" utilise pour faire la recherche. Lorsqu'il est lancé, le "robot" effectue d'abord une recherche dans ses index (ou, dans certains cas, dans les pages HTML (en temps réel)), puis il crée de façon dynamique une page HTML où figurent les liens qui renvoient à des pages d'informations. Le World Wide Web Worm, le WebCrawler Index, Lycos, le Jumpstation Robot et Aspider sont tous des exemples de "robots" Web.

Les "robots" sont cependant très gourmands en temps unité centrale et en largeur de bande de réseau, ce qui présente un problème. Ils parcourent constamment le réseau, ils établissent des connexions avec les serveurs Web, ils créent des index et ils effectuent des recherches en temps réel. Il existe cependant un outil de recherche plus "convivial" pour le réseau; il s'agit de Harvest, un programme qui repose sur un principe de base différent permettant de réduire les tensions sur le réseau. Il rassemble des informations d'indexation de façon efficace et les distribue par paquet dans le réseau Internet. Pour obtenir des renseignements plus détaillés sur ce sujet, voir http://harvest.cs.colorado.edu/harvest/technical.html.

5. Importance du Web

Le World Wide Web constitue une méthode extrêmement efficace de structuration et d'accès aux informations, ce qui en fait un outil important pour les bibliothèques. Il assure la liaison avec une grande variété de systèmes et de sources d'informations par l'entremise d'une seule interface. Le Web et ses explorateurs permettent aux bibliothèques d'exécuter les opérations suivantes :

Publier sur support électronique tout ce qui est actuellement publié sur papier
Assurer l'accès à des documents hypertextes internes et à des documents hypertextes disponibles sur le réseau Internet
Créer des services d'orientation électroniques comportant des plans d'étages et des descriptions de services
Assurer l'accès à des outils Internet comme TELNET, Gopher, FTP et WAIS par l'entremise d'une seule interface
Créer des interfaces permettant la communication avec des bases de données et des bibliographies internes
Recueillir les informations des clients au moyen de la fonction de traitement des formulaires.

À cause de sa grande puissance, le Web constitue l'étape la plus importante à ce jour vers la création de bibliothèques électroniques. Il met à la disposition des usagers des bibliothèques des sources de renseignements nombreuses et variées, et ce de façon simple et efficace.

Droit d'auteur. La Bibliothèque nationale du Canada. (Révisé : 1997-07-29).