Les "vocabulaires contrôlés" jouent un rôle crucial dans l'accès à l'information. Taxonomies, thesaurus et ontologies constituent d'indispensables outils pour les professionnels de l'information-documentation. Passage en revue de trois concepts difficiles à manier mais incontournables pour les experts du document.
Ce sont trois mots qui figurent dans le vocabulaire de base des professionnels de l'information-documentation : taxonomie, thesaurus, et ontologie. Totalement inconnus du grand public, ces trois termes renvoient à une idée générale de classification. Selon le dictionnaire Larousse, la taxonomie (ou taxonimie) est la "science des lois de la classification" ; le thesaurus est un "langage documentaire fondé sur une structuration hiérarchisée d'un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d'une ou plusieurs langues naturelles et les relations entre les notions par des signes conventionnels" (Afnor) ; quant à l'ontologie, il s'agit d'une... "théorie de l'être". Le vénérable Larousse s'est en effet uniquement intéressé à l'ontologie comme concept philosophique. Or le même mot désigne également un "ensemble structuré des termes et concepts représentant le sens d'un champs d'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de connaissances" (Wikipedia).
Soyons clair, ces définitions sont indigestes ! Mais elles appartiennent toutes au domaine des "vocabulaires contrôlés" qui prennent une importance croissante dans les systèmes d'information des entreprises : moteurs de recherche internes et externes, web de données, référencement des pages HTML, etc. Sans oublier le rôle que les vocabulaires contrôlés jouent dans l'archivage.
Dans leur livre de référence consacré au métier de documentaliste, Jean-Philippe Accart et Marie-Pierre Réthy apportent des précisions très utiles pour les professionnels de la documentation : "On retrouve les taxonomies sur la page d'accueil d'un site web avec l'affichage des rubriques correspondant à la recherche ou dans les catalogues de bibliothèques quand la recherche d'un auteur donne comme résultats à gauche de l'écran, une décomposition avec le nombre d'ouvrages de cet auteur (...) permettant de rebondir vers d'autres sources". La taxonomie est donc un système de classement qui offre une représentation ordonnée des ressources documentaires.
Plus précis qu'un tag et bon pour le référencement
La taxonomie présente un grand intérêt pour les professionnels de l'infodoc qui produisent des pages web. Plutôt que d'utiliser les traditionnels mots-clés (tags), la taxonomie permet de décrire plus finement les articles mis en ligne. Pour l'auteur du blog 4h18, on gagne donc en précision, mais aussi en services proposés à l'internaute et en référencement : "lLa seconde chose très pertinente réside dans la possibilité de récupérer ces taxonomies pour les afficher sur notre site. Par exemple, sur la page d’accueil de 4h18, en haut, à gauche, la partie « dossier WordPress » reprend les taxonomies en vigueur sur le site. En utilisant des termes précis, il m’est donc possible de donner des accès rapide et ciblés dans le cœur du site. La lisibilité et la compréhension de la structure du site peuvent donc s’en trouver accrue pour le visiteur. Il est ainsi possible de gagner en pertinence, mais également en référencement, puisque vos pages vont être indexées également avec leur taxonomie respective. Le bénéfice est donc double".
Le blog 4h18 a été construit grâce au CMS WordPress. Mais d'autres systèmes de gestion de contenu offrent également des modules dédiés à la taxonomie. C'est le cas de Drupal par exemple qui permet de créer des taxonomies pour peu qu'on respecte les procédures de gestion de contenu.
Océan documentaire
Du côté des thesaurus, les documentalistes et les bibliothécaires sont davantage en terrain connu. Il s'agit même pour les premiers d'une sorte de domaine réservé. Outil documentaire par excellence, le thesaurus est un ensemble structuré de mots-clés visant à accéder aux informations contenues dans un document. Il est donc indispensable si l'on veut trouver avec précision une information noyée dans un océan documentaire. Mais attention !...
La construction d'un thesaurus doit obéir à quelques règles. Celles-ci sont au nombre de cinq selon les experts du domaine. D'abord, un cahier des charges doit être rédigé : type et nombre de documents à indexer, besoins des utilisateurs, évaluation des logiciels... Ensuite, viennent les phases de collecte et de normalisation. Puis la mise en place d'une hiérarchisation et de relations sémantiques qui permettent d'exprimer un rapport de subordination entre les notions. Quatrième étape, il convient de procéder à des test avant de procéder à la validation finale. Enfin, "le thesaurus terminé doit faire l'objet d'une surveillance régulière. Car il devient vite obsolète s'il n'est pas mis à jour. Il est également recommandé de nommer un administrateur du thesaurus", estime Danièle Degez, auteure d'un livre de référence sur le sujet.
Bonne nouvelle pour les documentalistes : les logiciels intègrent tous un module dédié à la gestion du thesaurus. Certains d'entre eux permettent même d'extraire de manière automatique des listes de mots. Il existe également des thesaurus en ligne comme le Mesh de l'Inserm (Institut national de la santé et de la recherche médicale) et consultable en mode bilingue français-anglais. Co-construit avec la National Library of Medicine (Etats-Unis), il fait figure de référence dans le domaine biomédical. Autre thesaurus en ligne, celui de l'Unesco qui contient 8 600 termes en français et en espagnol et 7 000 termes en anglais et en russe.
Web sémantique
Quant aux ontologies, elles sont amenées à jouer un rôle de plus en plus important dans le domaine de l'ingénierie des connaissances et plus particulièrement dans le web sémantique (ou web de données). Le W3C (Worlds Wide Web Consortium, organisme de normalisation du web) possède depuis 2002 un groupe de travail dédié aux ontologies web structurées : l'ontology web language (OWL). Ce langage a pour ambition de créer des logiques de description permettant de représenter des connaissances. L'OWL n'est pas totalement inconnu des bibliothécaires car il est fondé sur le RDF (ressource description framework) qui permet de décrire les ressources web et leurs métadonnées.
Il ne faudrait pourtant pas penser que taxonomies, thesaurus et ontologies sont séparées par d'infranchissables frontières : "Les ressemblances entre un thesaurus et une ontologie sont frappantes. Dans les deux cas, il s'agit d'un vocabulaire contrôlé, utilisé et validé par les acteurs d'un domaine. Dans les deux cas, ce vocabulaire est structuré et doté de relations sémantiques entre les termes qui le composent", estime l'universitaire Yolla Polity dans un ouvrage collectif paru il y a dix ans. "Mais les ressemblances s'arrêtent là car la sémantique des objets et des relations dans une ontologie est une sémantique formelle qui n'est pas destinée à être interprété par des êtres humains".
Avec l'expansion du web de données, les bibliothécaires, mais aussi les documentalistes ont un rôle à jouer. Depuis plusieurs années déjà, la Bibliothèque nationale de France mène des travaux sur l'évolution des catalogues. Le site Transition bibliographique, lancé au mois de juin dernier, permet d'être informé sur l'évolution des formats et les négociations liées à la normalisation documentaire.