la recherche en langage naturel avance à pas de géantarchimag - septembre 2009 Les nouvelles technologies sémantiques sont de plusen plus utilisées par les logiciels professionnels. En attendant leur arrivée sur le marché du grand-public.
en juillet 2008, Microsoft annonçait le rachat de Powerset, un éditeur spécialisé dans les moteurs de recherche sémantiques. Montant de la transaction : 100millions de dollars. Un prix élevé mais le choix du numéro un mondial du logiciel ne devait rien au hasard. Trop d’internautes se plaignent encore du manque de pertinence des moteurs de recherche traditionnels. Quant aux entreprises, elles sont les premières à souffrir des insuffisances de leurs systèmes quand il s’agit de retrouver la bonne information au bon moment. Avec l’acquisition de Powerset, Microsoft s’empare d’une technologie prometteuse que tout éditeur ambitieux se doit de posséder. La firme fondée par Bill Gates n’est d’ailleurs pas le seul mastodonte à prendre position sur le marché des moteurs de recherche sémantique. Xerox travaille depuis plus de quatre ans sur le projet Factspotter qui ambitionne de « comprendre les processus d’information du cerveau »… orange : fruit, couleur, ville, entreprise…Les moteurs de recherche sémantique apparaissent comme la panacée de la recherche en environnement numérique. Capables de comprendre les requêtes rédigées en langage naturel, ils adaptent la réponse en fonction d’un contexte. Pour y parvenir, ils recourent aux co-occurrences : si le terme recherché est « avion », le moteur associera « aéronautique », « aéroport », « horaire », « vol », « Airbus », etc. On voit tout de suite l’intérêt d’une recherche sémantique maîtrisée. Dans le cas d’une requête formulée sur un terme polysémique, les moteurs sémantiques sont en mesure de séparer le bon grain de l’ivraie. Imaginons une requête sur le terme « orange » : ce substantif renvoie à la couleur, au fruit, à une ville, à un opérateur téléphonique et, pour ajouter à la confusion, à un personnage historique, Guillaume d’Orange. À ce petit jeu, l’internaute risque vite d’être submergé par le bruit généré par un moteur non discriminant. Les nouvelles technologies de recherche sémantique devraient être en mesure de filtrer les millions de réponses disponibles. qui a tué Kennedy ? La recherche sémantique n’a pas encore atteint sa vitesse de croisière mais la technologie existe d’ores et déjà . Ces moteurs de recherche du futur fonctionnent sur le principe du triplet : sujet-prédicat- objet. Pour illustrer ce qu’est un triplet, Christophe Deschamps, l’auteur du blog Outils froids, donne un exemple simple et concret : who (sujet) killed (prédicat) Kennedy (objet)… Le sujet représente la source à décrire, le prédicat représente un type de propriété applicable à cette ressource, l’objet représente la valeur de la propriété. Ainsi à la question « who killed Kennedy ? », le moteur de recherche sémantique Text Runner répond Lee Harvey Oswald… mais jette également d’autres noms en pâture : la CIA, Fidel Castro, la mafia… analyse automatique de CV La recherche sémantique ne se réduit pas aux outils grand-public. Les moteurs de recherche d’entreprise doivent gérer toujours plus de mégaoctets de données. Les bases de données regorgent de documents PDF, Word, HTML… Sans oublier les fichiers multimédias. Autant retrouver une aiguille dans une botte de foin ! L’infobésité n’est pas un mythe, les professionnels de l’infodoc sont [parfois mal] payés pour le savoir. nomenclature de compétencesLes CV déposés par les candidats sont désormais analysés par ce logiciel, qui permet d’améliorer la reconnaissance de données : adresse, diplômes, expérience professionnelle… Le traitement sémantique de Lingway fournit des données structurées et validées par le candidat. Ces informations alimentent ensuite une nomenclature de compétences et une CVthèque dans laquelle peuvent puiser les centaines d’agences Manpower selon les demandes de leurs clients. Avec 1,5 million de visites par mois, le site Manpower se classe au premier rang dans son secteur. L’apport de l’analyse automatique de CV a été apprécié par les internautes, qui disposent désormais d’un confort d’utilisation supérieur aux anciens formulaires. Manpower, de son côté, se montre également satisfait : « Auparavant, dans certains cas, jusqu’à 90 % des intentions de dépôt de CV n’aboutissaient pas en raison d’une ergonomie contraignante. Aujourd’hui, cette solution permet d’augmenter considérablement le taux de conversion des intentions de dépôt en dépôt réel », précise Catherine Guichon. |


