publicité
Accueil Archimag > magazines > Archimag n°227 > la recherche en langage naturel avance à pas de géant


DR Barros

la recherche en langage naturel avance à pas de géant

bruno texier
archimag - septembre 2009

Les nouvelles technologies sémantiques sont de plusen plus utilisées par les logiciels professionnels. En attendant leur arrivée sur le marché du grand-public.


en juillet 2008, Microsoft annonçait le rachat de Powerset, un éditeur spécialisé dans les moteurs de recherche sémantiques. Montant de la transaction : 100millions de dollars. Un prix élevé mais le choix du numéro un mondial du logiciel ne devait rien au hasard. Trop d’internautes se plaignent encore du manque de pertinence des moteurs de recherche traditionnels. Quant aux entreprises, elles sont les premières à souffrir des insuffisances de leurs systèmes quand il s’agit de retrouver la bonne information au bon moment. Avec l’acquisition de Powerset, Microsoft s’empare d’une technologie prometteuse que tout éditeur ambitieux se doit de posséder. La firme fondée par Bill Gates n’est d’ailleurs pas le seul mastodonte à prendre position sur le marché des moteurs de recherche sémantique. Xerox travaille depuis plus de quatre ans sur le projet Factspotter qui ambitionne de « comprendre les processus d’information du cerveau »…
Les dirigeants de Google ne s’endorment pas sur leurs lauriers. Grâce à un programme intitulé Direct answers, le plus célèbre moteur de recherche du monde propose de répondre directement à la question posée plutôt que de présenter une série de liens. Ainsi, à la question « who is France’s president ? », Google répond « Nicolas Sarkozy » et prend tout de même soin de préciser ses sources : la CIA… À ce jour, cette option n’est accessible que dans certains pays et seulement en langue anglaise.

orange : fruit, couleur, ville, entreprise…

Les moteurs de recherche sémantique apparaissent comme la panacée de la recherche en environnement numérique. Capables de comprendre les requêtes rédigées en langage naturel, ils adaptent la réponse en fonction d’un contexte. Pour y parvenir, ils recourent aux co-occurrences : si le terme recherché est « avion », le moteur associera « aéronautique », « aéroport », « horaire », « vol », « Airbus », etc. On voit tout de suite l’intérêt d’une recherche sémantique maîtrisée. Dans le cas d’une requête formulée sur un terme polysémique, les moteurs sémantiques sont en mesure de séparer le bon grain de l’ivraie. Imaginons une requête sur le terme « orange » : ce substantif renvoie à la couleur, au fruit, à une ville, à un opérateur téléphonique et, pour ajouter à la confusion, à un personnage historique, Guillaume d’Orange. À ce petit jeu, l’internaute risque vite d’être submergé par le bruit généré par un moteur non discriminant. Les nouvelles technologies de recherche sémantique devraient être en mesure de filtrer les millions de réponses disponibles.

qui a tué Kennedy ?

 La recherche sémantique n’a pas encore atteint sa vitesse de croisière mais la technologie existe d’ores et déjà. Ces moteurs de recherche du futur fonctionnent sur le principe du triplet : sujet-prédicat- objet. Pour illustrer ce qu’est un triplet, Christophe Deschamps, l’auteur du blog Outils froids, donne un exemple simple et concret : who (sujet) killed (prédicat) Kennedy (objet)… Le sujet représente la source à décrire, le prédicat représente un type de propriété applicable à cette ressource, l’objet représente la valeur de la propriété. Ainsi à la question « who killed Kennedy ? », le moteur de recherche sémantique Text Runner répond Lee Harvey Oswald… mais jette également d’autres noms en pâture : la CIA, Fidel Castro, la mafia…
Une autre application sémantique a dernièrement fait parler d’elle : Wolfram Alpha. Développée par un éditeur spécialisé dans les logiciels de calcul, elle s’apparente en réalité plus à une énorme base de connaissances qu’à un moteur de recherche stricto sensu. Si son interface rappelle Google, Exalead, Yahoo et consorts, ses réponses proviennent de bases de données professionnelles et non pas de l’immensité du web. Lors du lancement le 15 mai dernier, Wolfram Alpha a fait frissonner les internautes émerveillés de voir un outil de recherche comprendre les questions qui lui sont soumises. Certains blogueurs y ont vu l’arrivée tant attendue d’un Google killer… Autant le dire tout de suite, ce n’est pas le cas. Les requêtes ne peuvent être formulées qu’en anglais et seules quelques disciplines sont traitées par Wolfram Alpha : mathématiques, statistiques, sciences, langues, informatique… Mais il est vrai que les résultats proposés sont étonnants de précision. À la question « How many people live in Bolivia ? », Wolfram Alpha donne la réponse – 9,5 millions d’habitants – et propose des informations relatives à la question posée : espérance de vie, densité, etc. Une version francophone devrait prochainement être disponible.

analyse automatique de CV

 La recherche sémantique ne se réduit pas aux outils grand-public. Les moteurs de recherche d’entreprise doivent gérer toujours plus de mégaoctets de données. Les bases de données regorgent de documents PDF, Word, HTML… Sans oublier les fichiers multimédias. Autant retrouver une aiguille dans une botte de foin ! L’infobésité n’est pas un mythe, les professionnels de l’infodoc sont [parfois mal] payés pour le savoir.
Face à l’explosion des volumes d’information, les entreprises sont dans l’obligation de faire appel à des technologies toujours plus performantes. Cela est particulièrement vrai pour les grands comptes.
Manpower, spécialiste de l’emploi par intérim, figure dans le trio de tête du travail temporaire. Avec 615 agences en France et 90 000 clients de toutes tailles, elle gère un vivier de 800 000 candidatures disponibles. Pendant plusieurs années, les internautes qui souhaitaient déposer leur candidature devaient remplir un formulaire en ligne : « Nous nous sommes rendu compte que ces formulaires présentaient un avantage et un inconvénient majeur. Avantage : l’information laissée par le candidat était structurée et précise ; inconvénient : ils nous faisaient perdre de l’information par rapport aux CV produits par les candidats eux-mêmes, qui contiennent beaucoup plus d’information », souligne Catherine Guichon, responsable du développement internet. Manpower a fait appel à l’éditeur Lingway et à sa solution LEA CV d’analyse automatique construite autour des technologies de la sémantique.

nomenclature de compétences

Les CV déposés par les candidats sont désormais analysés par ce logiciel, qui permet d’améliorer la reconnaissance de données : adresse, diplômes, expérience professionnelle… Le traitement sémantique de Lingway fournit des données structurées et validées par le candidat. Ces informations alimentent ensuite une nomenclature de compétences et une CVthèque dans laquelle peuvent puiser les centaines d’agences Manpower selon les demandes de leurs clients. Avec 1,5 million de visites par mois, le site Manpower se classe au premier rang dans son secteur. L’apport de l’analyse automatique de CV a été apprécié par les internautes, qui disposent désormais d’un confort d’utilisation supérieur aux anciens formulaires. Manpower, de son côté, se montre également satisfait : « Auparavant, dans certains cas, jusqu’à 90 % des intentions de dépôt de CV n’aboutissaient pas en raison d’une ergonomie contraignante. Aujourd’hui, cette solution permet d’augmenter considérablement le taux de conversion des intentions de dépôt en dépôt réel », précise Catherine Guichon.

    Envoyer &agrave un ami
 

Flux RSS IT : Ajouter à Netvibes - Ajouter à Google

<

Flux RSS Métier : Ajouter à Netvibes - Ajouter à Google

<

Flux RSS livres blancs : Ajouter à Netvibes - Ajouter à Google

<

Flux RSS derniere minute : Ajouter à Netvibes - Ajouter à Google

<