publicité

Accueil Archimag > Commander un guide > Guide pratique : Veille et gestion des connaissances (extrait 2)

les techniques linguistiques d'indexation (extrait)

Cédric Bouttes

Qu'il s'agisse d'applications de gestion de connaissances ou de veille, la fonction d'indexation des sources internes ou externes de l'entreprise est celle qui requiert le plus d'exigences, car c'est d'elle dont dépend la pertinence des résultats des requêtes. Grâce à la linguistique, des technologies se développent, qui permettent d'indexer et d'analyser le contenu d'un document électronique.


[…] Un moteur sémantique se doit de réaliser au moins les trois niveaux d'analyse suivants :

1. Le niveau morphologique

On isole chaque terme par le biais d'un dictionnaire qui permet le contrôle des chaînes de caractères et le repérage des mots. On devra cependant prendre en compte le polymorphisme de mots appartenant à un même concept, le traitement se traduisant par la suppression des variantes combinatoires (flexion, dérivation, conjugaison) pour obtenir une forme canonique par réduction (appelée aussi lemmatisation). Les outils nécessaires à ce procédé de réduction sont les dictionnaires de correspondances entre formes fléchies ou dérivées et formes canoniques ainsi que des règles d'établissement par correspondance.

  • exemple : "produira", "produisent", "ont produit" etc., auront la même forme canonique "produire" (on dit aussi que le terme produire est le lemme de ses formes fléchies produira, produisent, ont produit).

Il existe des modes d'indexation libre par fichier inverse de lemmes, obtenu par l'ensemble des opérations : découpage, lemmatisation, élimination des mots vides, inversion. Il est également possible de pondérer les index ainsi obtenus. On obtient en fait un index inversé de mots comme dans la technique d'indexation en texte intégral. Simplement, par un traitement linguistique, les mots qui pointent sur des documents ont tous cette fois une forme lemmatisée
Dans ce cas au moment de l'interrogation, une lemmatisation de la requête doit également être effectuée afin de faire correspondre les termes de la requête avec ceux de l'index. Ce mode d'indexation a un intérêt certain pour retrouver des concepts dans un texte, même s'ils ont été exprimés dans la question sous une forme différente.

  • exemple : si on réalise une recherche sur le terme "produire" on obtiendra les documents contenant le terme produire mais aussi les documents contenant les formes fléchies de ce mot comme "produisent", "produira", "ont produit", etc.

Dans le principe on réalise donc une expansion de la requête. Le problème est que ce seul niveau d'analyse engendre des ambiguïtés sémantiques.
En effet, non seulement les formes fléchies peuvent correspondre à plusieurs lemmes (le terme livres est soit le nom - féminin ou masculin - au pluriel, soit le verbe conjugué à la deuxième personne du présent de l'indicatif ou du subjonctif) mais un même lemme peut aussi être ambigu (présent peut être associé au temps, à un cadeau, au fait d'être là). Ainsi une analyse syntaxique complète des phrases doit être réalisée en parallèle pour lever certains cas d'ambiguïtés.

  • exemple : Une indexation de type morphologique a été mise en Å“uvre dans les logiciels AlethIP (Lexiquest), Intuition (Sinequa), Pertimm (Pertimm), Spirit (Technologies-Gid), Pericles (Datops), Exalead Corporate (Exalead).

2. L'analyse syntaxique

L'analyse syntaxique permet de résoudre quelques cas d'ambiguïté en s'appuyant sur la structure grammaticale de la langue.
L'analyse syntaxique part des phrases et consiste à déterminer les regroupements structurels des mots au sein de ces phrases, ainsi que les relations entre les mots et les relations entre les structures de mots. Elle cherche par exemple à obtenir des analyses de type sujet - verbe - complément, ou plutôt groupe nominal sujet - groupe verbal - groupe nominal complément. Dans la plupart des modèles syntaxiques, l'analyse d'une phrase aboutit à une représentation hiérarchique ou arborescente, dans laquelle les mots sont regroupés en unités intermédiaires ou syntagmes, qui s'emboîtent les uns dans les autres. En sortie d'une analyse, on trouve ainsi généralement un arbre syntaxique, avec des informations syntaxiques attachées aux nœuds et aux extrémités des branches de cet arbre. La figure 1 montre une phrase (simple) et son arbre syntaxique développé sur plusieurs niveaux. […]

(fin de l'extrait)

    Envoyer &agrave un ami