un moteur de recherche peut en cacher un autrearchimag - septembre 2008 Sur un marché en croissance, les éditeurs spécialisés dans la recherche et l’indexation multiplient les partenariats opportunistes pour étendre la pertinence de leur réponse technique ou… commerciale.
partenaires et concurrentsL’Agence France Presse vient de mettre en production un projet de composition multimédia de ses dépêches [voir Archimag n° 216]. La solution en place autorise le journaliste à choisir et à ajouter à la dépêche des animations Flash et des vidéos, par exemple. La fonction de recherche incluse dans l’application demeurait limitée à des recherches en texte intégral dans les métadonnées à partir d’index générés par Lucene, un moteur open source. Trois éditeurs, Antidot,Temis et Mondeca ont gagné l’appel d’offres destiné à analyser et annoter les fichiers et à fournir une fonction de recherche sémantique. Antidot indexe les données, Temis extrait les lieux, personnes, noms de sociétés, etc. et Mondeca fournit ses solutions de gestion de référentiels et de thesaurus. L’application finale sera capable d’identifier, entre autres, des noms de sociétés qu’elle ne connaît pas grâce à la reconnaissance d’expressions de type « filiale de ». Si le découpage entre les trois éditeurs, « qui permet de prendre le meilleur de chaque technologie», insiste Fabrice Lacroix, dirigeant d’ Antidot, est clair, cela n’empêche pas ces derniers de répondre individuellement à d’autres appels d’offres en couvrant plus ou moins le même périmètre. Dans un secteur d’activité tout autre, EDF a choisi d’analyser la teneur de conversations avec ses clients sur le thème de l’ouverture à la concurrence. Baptisé Callsurf, le projet recense les coups de fils passés au centre d’appels d’EDF, transcrit les conversations en texte – une opération baptisée Speechtotext – et cherche à identifier à l’intérieur de ce corpus les expressions portant sur des thèmes précis comme l’ouverture à la concurrence. La teneur de ces expressions est également analysée par les logiciels. Les éditeurs de ce projet sont cette fois Vecsys, un spécialiste du traitement automatique de la parole, Temis et Sinequa. Deux éditeurs par ailleurs en concurrence pour l’AFP. « Nos deux solutions technologiques couvrent en grande partie le même périmètre fonctionnel, reconnaît François D’Haegeleer, responsable marketing produit chez Sinequa ; mais leur utilisation conjointe permet d’améliorer les performances ». On pourrait multiplier les exemples de partenariats, ponctuels ou réguliers, comme celui de Lingway et d’Exalead. Entre autres fonctions, les logiciels de ces deux éditeurs extraient des expressions dans les documents, recensés suite à des recherches, dans le but d’apporter des pistes complémentaires à l’utilisateur. Une même fonctionnalité prise en charge de façon différente par les deux logiciels. L’outil d’Exalead extrait des concepts d’un même texte par rapport à des règles morphosyntaxiques, comme par exemple la présence de locutions comptant successivement deux substantifs, a priori plus porteuses de sens que des substantifs isolés,dans la langue française. Le logiciel de Lingway ajoute à ce type d’analyse un niveau sémantique capable de préciser le sens des expressions par rapport au reste du document d’origine. Une désambiguïsation possible grâce à l’utilisation d’un thésaurus reliant chaque mot ou expression à un ou à plusieurs concepts. « La vraie question n’est plus d’extraire des concepts mais de les organiser et de le relier entre eux, explique Bernard Normier,dirigeant de Lingway ; par exemple, pour regrouper dans la même catégorie les clubs et les associations sportives ».Si ces alliances de circonstances améliorent les performances des outils, elles peuvent aussi se révéler contreproductives.Les logiciels travaillent à la fois au stade de l’indexation des données et sur la question posée. Ce qui implique de modéliser les données à ces deux étapes.« Multiplier les logiciels fait courir le risque de disposer par exemple d’un modèle de données différent pour l’indexation et pour le travail sur les questions », assure Bernard Normier de Lingway. sur un marché morceléLe morcellement du marché français explique ces associations. Un marché qui compte Ami Software, Antidot, Arisem, Iscope, Ixxo, Lingway, Mondeca, Nstein, Pertimm, Polyspot, Qwam, Sinequa, Temis, pour ne citer que les principaux éditeurs de moteurs généralistes ou spécialisés dans la veille ou dans un métier. Il se distingue en Europe par son nombre d’éditeurs spécialisés dans le traitement automatique des langues. « Une conséquence de la tradition universitaire française dans le domaine de la linguistique», met en avant Christian Langevin de Qwam System. Tous ces éditeurs se retrouvent régulièrement en concurrence avec les leaders du secteur, notamment Fast, récemment racheté par Microsoft, ou Autonomy. « Répondre à un appel d’offres groupés dans un consortium nous remet dans la compétition face aux éditeurs majeurs du secteur », explique anonymement le dirigeant de l’un des éditeurs. De plus, « si choisir un consortium multiplie les acteurs, cela évite aussi au client de se retrouver pieds et mains liées avec un seul éditeur », souligne Fabrice Lacroix d’Antidot. |


Pour répondre à un appel d’offres émis par le département d’intelligence économique d’un industriel préférant rester anonyme, IBM s’est associé avec Thales-Arisem et Ixxo, un petit éditeur spécialisé dans la recherche. PDG d’Ixxo, Jean-Pierre Bourdais précise la logique technique de cette alliance :« Notre explorateur web, Squido, ramenait des données. Omnifind, le moteur d’IBM, avait pour charge de les indexer. Dernière pièce de l’échafaudage, le logiciel d’Arisem prenait en charge la partie sémantique, notamment par l’intégration d’un thésaurus ». Une démarche tout à fait logique pour Michel Caussanel, responsable avant-vente sur les techniques de gestion de l’information chez IBM France : « L’avenir passe par le respect de standards permettant d’interfacer des cartouches sémantiques métier avec des logiciels d’indexation d’infrastructure ». Dans cette logique, IBM promeut le standard Uima (Unstructured information management architecture). Il prend la forme d’un framework destiné à interfacer les différents logiciels. Avec ou sans Uima, la plupart des éditeurs s’associent ponctuellement. « On a travaillé avec la plupart des éditeurs spécialisés dans l’indexation ou les moteurs de recherche », assène tranquillement Christian Langevin, directeur des opérations de Qwam System, société elle-même spécialisée dans les moteurs de recherche. Explication : Qwam développe des logiciels dédiés à la collecte d’informations externes sur le web et plus spécifiquement pour ce qui « ressemble à un article ou une fiche bibliographique, précise Christian Langevin, ce qui reste complémentaire des autres logiciels plutôt destinés aux intranets ».