Article réservé aux abonnés Archimag.com

Réussir un projet d’IA générative appliqué à un corpus documentaire de veille

  • reussir-projet-ia-generative-applique-corpus-documentaire-veille.jpg

    Reussir-projet-IA-generative-applique-corpus-documentaire-veille
    L’équipe Veille technologique et stratégique du Centre technique des industries mécaniques a décidé de commencer par un Poc sur l’exploitation d’une base de connaissances de plus de 3000 livrables de veille, produit sur une dizaine d'années. (freepik)
  • Début 2024, l’équipe Veille technologique et stratégique du Centre technique des industries mécaniques (Cetim) a réalisé un Poc (preuve de concept) sur l’exploitation d’une base de connaissances de veille par l’IA générative. Retour d’expérience.

    enlightenedRETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE GUIDE PRATIQUE : IA GÉNÉRATIVE : L'UTILISER DANS SES PROJETS PROFESSIONNELS
    mail Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !


    -- Cet article a été rédigé au printemps 2024 -- 

    Les intelligences artificielles (IA) génératives débarquent dans notre quotidien, tant personnel que professionnel. En moins d’un an, nous sommes passés d’un sujet très émergent à une vague apportant pratiquement chaque semaine son lot de nouveautés impactantes, voire révolutionnaires, pour de nombreux métiers. 

    Actuellement, la technologie IA générative est vraiment tout en haut du "cycle de la hype", dans la phase de buzz. Et les industriels de la mécanique ne dérogent pas à ce buzz : en 2023, la note de veille sur "ChatGPT pour la veille" a été le document de veille qu’ils ont le plus téléchargé sur notre site ; en 2024, les webinaires animés sur l’IA générative rencontrent un succès exceptionnel, avec environ trois fois plus de participants qu’à un webinaire sur une autre technologie.

    Dans le domaine de la documentation, de la veille et de l’intelligence économique, ces IA génératives représentent des menaces, mais aussi de formidables opportunités. Elles peuvent aider dans les phases de collecte d’informations, mais surtout d’analyse et de synthèse, voire d’exploitation. L’impact potentiel peut être comparé à celui de l’arrivée d’internet il y a plus de 25 ans, mais avec la grosse différence que l’évolution est nettement plus rapide. 

    Les professionnels de ces métiers pourraient s’inquiéter de ne plus être utiles et d’être petit à petit remplacés par une IA générative. À notre sens, il n’en est rien : l’idée est plutôt de profiter de ces nouveaux outils pour gagner du temps dans certaines tâches, et ainsi libérer de la bande passante pour apporter davantage de valeur ajoutée humaine sur d’autres.

    Lire aussi : Comment maîtriser les IA génératives : l'art de rédiger des prompts

    Un Poc sur l’exploitation d’une base de connaissances de veille

    De plus en plus d’entreprises, au-delà de l’utilisation par les salariés des IA génératives bien connues (ChatGPT, Gemini, Copilot, Mistral AI, etc.), se lancent dans des projets internes visant à exploiter les potentialités des IA génératives sur leurs propres données et sans que rien ne sorte à l’extérieur (ni les données elles-mêmes ni ce qui en est généré par l’IA). 

    Dans un projet d’IA générative, il est généralement conseillé d’avancer pas à pas, tâche par tâche, plutôt que de révolutionner d’un seul coup tout un processus ; c’est pourquoi l’équipe Veille technologique et stratégique du Centre technique des industries mécaniques (Cetim) a décidé de commencer par un Poc (preuve de concept) sur l’exploitation d’une base de connaissances de veille. Cette base de données est constituée de plus de 3 000 livrables de veille, production de l’équipe Veille sur une dizaine d’années. 

    Dans le cadre de ce projet mené au premier trimestre 2024, le Cetim a identifié une douzaine de prestataires spécialisés dans la data et l’intelligence artificielle, et proposant diverses solutions d’IA générative. Ils peuvent être regroupés au sein de deux grandes catégories :

    • les offreurs de solutions plus ou moins clés en main ;
    • les développeurs de solutions spécifiques s’appuyant sur des outils existants.

    Après de premiers échanges avec chacun de ces prestataires, le Cetim a retenu neuf sociétés pour une consultation sur la base d’un cahier des charges. Les objectifs retenus de ces Poc étaient :

    • explorer en langage naturel un corpus de 1 000 à 3 000 notes de veille par une IA générative privée ;
    • enrichir notre connaissance de la mise en œuvre et de l’apport des outils : possibilités, limites fonctionnelles, infrastructure IT nécessaire, sécurité, coût et délai d’un tel projet, compétences, etc. ;
    • partager ces expériences avec les entreprises de l’industrie mécanique (sous la forme de notes de veille et de webinaires) ;
    • envisager d’autres expérimentations sur d’autres bases de documents du Cetim. 

    Les budgets pour ces Poc sont de quelques dizaines de milliers d’euros et les délais de réalisation de l’ordre d’un à trois mois. 

    Plus précisément, les fonctionnalités "veille" recherchées étaient essentiellement :

    • un moteur de recherche sémantique capable de rechercher une information précise dans les documents de la "Mécathèque" ou d’identifier les documents les plus pertinents sur un sujet ;
    • un outil pour exploiter la richesse du corpus : résumés de documents, synthèses sous forme de textes ou de tableaux (avec liens vers les documents sources), questions/réponses en mode chatbot.

    Lire aussi : Au cœur des bases de données documentaires

    Quatre outils testés en parallèle

    Ce domaine des IA génératives étant encore tout nouveau pour le Cetim et pour bon nombre d’acteurs industriels, nous avons décidé de tester quatre solutions en parallèle (deux dans chacune des catégories indiquées préalablement). Quatre Poc ont donc été lancés et suivis en même temps, ce qui - avec le recul - s’est révélé assez compliqué à gérer (risque de mélange entre les solutions testées, répétitions, surcharge de travail, etc.).

    La plupart des prestataires ont commencé par une phase d’acculturation sur l’IA générative aux personnes du Cetim impliquées dans les Poc (fonctionnement de l’IA, étapes du projet, vocabulaire spécifique...). Ils ont ensuite constitué les infrastructures informatiques nécessaires au projet, puis ingéré les documents transmis par le Cetim. 

    gp77_3_5_portrait_laurent_couve_cetim.png
    Légende : Laurent Couvé, responsable Veille technologique et stratégique du Cetim. (DR)

    Très rapidement (en moins de deux semaines), ils ont tous été en mesure de nous mettre à disposition une première version de leur outil.  Les semaines suivantes ont été consacrées aux nombreux tests réalisés par l’ensemble de l’équipe Veille du Cetim, et aux améliorations des performances des outils. En effet, qui d’autre connaît mieux les dossiers de veille sur l’hydrogène que l’ingénieur qui les a rédigés ; il est donc en mesure d’interroger l’IA sur des informations qu’il sait figurer dans les dossiers ingérés et peut également juger de la pertinence des résumés ou des synthèses générés par l’IA.

    Lire aussi : Dossier : quel avenir pour la veille à l’ère des IA génératives ?

    Résultats des tests

    Globalement, les résultats des nombreux tests ont été très variables, avec environ un tiers de "bonnes" réponses, un tiers de réponses en partie acceptables, mais comportant des manques et/ou des erreurs, et enfin un tiers de réponses hors sujet ou de non-réponses. 

    Dans les budgets consacrés à ces Poc, il est clair que l’entraînement des modèles ne peut pas être à la hauteur d’un ChatGPT (pour rappel, OpenAI a investi 11 milliards de dollars dans l’entraînement de son outil phare). D’où ces résultats encore mitigés. 

    Parmi les faiblesses constatées lors de ces quatre Poc, on peut citer :

    • la difficulté à tenir compte d’une date ou d’une chronologie : l’IA peut très bien nous indiquer que le prochain salon sur un domaine aura lieu en 2022 ou nous sortir un document de 2015 quand on lui demandait quelles sont les tendances 2024 sur un sujet ; l’incapacité à lire les logos figurant dans les documents de veille, pour y comprendre un nom de société par exemple ;
    • le manque de vocabulaire technique précis du métier, ce qui peut conduire à des mélanges surprenants.

    Ces projets de mise en place en interne d’une IA générative ne peuvent se concevoir qu’avec des ressources et compétences informatiques. Dans le cas présent, l’équipe Veille du Cetim a joué le rôle de l’usager, mais tous les aspects informatiques ont été pris en charge par l’équipe Systèmes d’information.

    En conclusion - forcément provisoire - ce genre de Poc est extrêmement enrichissant, car il oblige à comprendre le fonctionnement des IA génératives. Nous avons découvert qu’il n’est pas possible d’obtenir à chaque fois une qualité de réponse optimale sans investir beaucoup d’argent dans l’apprentissage. Il faut donc être raisonnable et accepter les défauts de solutions qui ont encore besoin de mûrir.

    Pour l’équipe Veille technologique et stratégique du Cetim, ces Poc ont également permis de réfléchir à certaines évolutions de nos livrables de veille qui viseraient à faciliter l’exploitation ultérieure, par une IA générative, de cette masse de connaissances produites. 

    Lire aussi : Thomas Parisot : "l’ensemble de la chaîne de l’information est bousculée par la révolution de l’IA"

    À lire sur Archimag
    Les podcasts d'Archimag
    Êtes-vous prêts à renoncer à des services numériques ou à vos appareils électroniques pour le bien commun ? Face à l'urgence climatique, notre rapport au progrès et à la technologie est souvent remis en question. Archimag Podcast a rencontré Alexandre Monnin, philosophe, directeur du master Sciences, Stratégie et Design pour l’Anthropocène à l’ESC Clermont Business School et auteur de l'ouvrage "Politiser le renoncement", aux Éditions Divergences. Il est aussi co-initiateur du courant de la redirection écologique, dont il nous explique le principe.
    Publicité

    Serda Formation Veille 2025