Article réservé aux abonnés Archimag.com

Quand les professionnels de l’infodoc conjuguent IA et numérique responsable

  • professionnels-infodoc-conjuguent-intelligence-artificielle-numerique-responsable.jpg

    L’essor de l’IA dans la gestion de l’information ouvre des perspectives prometteuses, mais soulève aussi des défis cruciaux en matière de qualité des données, d’éthique et de maîtrise des risques (Freepik).
  • Au-delà des data scientists ou des ingénieurs en intelligence artificielle (IA), les archivistes, les records managers, les doc controllers, les documentalistes et les bibliothécaires jouent également un rôle central dans la performance des IA génératives et dans la réduction de leur impact environnemental.

    archimag_381_hd_couv_20250130_page-0001_1_8.jpgenlightenedCET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N° 381 : Protection des données en entreprise: quelle stratégie à l'ère de l'IA ?
    mail Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation.



    Les chiffres sont parlants : plus d’un quart des organisations ont adopté l’intelligence artificielle (IA) dans leurs processus de travail quotidiens. De même, plus de 10 % de précurseurs incluent déjà l’IA parmi leurs actifs informationnels. Le comité de normalisation ISO TC46, dont le domaine de compétence couvre les bibliothèques, les documentations et les archives, vient de lancer deux groupes de travail sur l’IA et ses impacts sur les métiers de l’information-documentation.

    Les DSI, pour leur part, voient dans les outils de Ged, les plateformes collaboratives, ou les archives électroniques des gisements de qualité pour alimenter leur IA : 80 % d’entre eux pensent que leurs investissements dans les solutions de gestion de données et de documents vont pouvoir être [enfin] rentabilisés grâce à l’IA.

    Lire aussi : Numérisation et IA : vers un numérique responsable

    1. L’infodoc au service de l’IA : qualité, réduction des risques et éthique

    Petit rappel des technologies en jeu :

    • la numérisation, l’OCR (reconnaissance optique de caractères) et la vectorisation constituent les technologies initiales pour alimenter l’IA. Celles-ci existent depuis longtemps et n’ont cessé de s’améliorer. Elles couvrent la conversion de documents papier au format numérique : l’OCR en lecture de forme, et la vectorisation, qui convertit le texte en vecteurs, pour analyser et alimenter l’IA. Ainsi alimentés en vecteurs, les réseaux neuronaux constitutifs de l’IA calculent ensuite des probabilités et des proximités pour des prédictions en matière de concaténation de textes (enchaînement de termes) ;
    • les LLM (large language model ou langage préentraîné) sont des modèles d’IA préformés sur de vastes textes pour comprendre et générer du langage naturel, sans besoin de données spécifiques ;
    • la RAG (retrieval-augmented generation ou génération augmentée de récupération) combine la génération de texte avec la recherche d’informations pertinentes dans des fonds documentaires ou dans des bases de données pour des réponses plus précises et contextualisées ;
    • le fine-tuning, entraînement spécialisé à partir d’un LLM préentraîné, permet l’ajustement d’un LLM existant avec des données spécifiques pour améliorer ses performances dans un secteur d’activité ou de connaissance particulier.

    Rappelons que les risques avérés de l’IA sont :

    • les hallucinations : quand l’IA génère des informations fausses, mais présentées comme vraies. Elles sont souvent dues à des lacunes dans les données d’entraînement et dans la qualité de ces dernières ;
    • les biais : ce sont des tendances systématiques dans les résultats de l’IA qui reflètent des préjugés dans les données ou dans le processus de décision. Par exemple, les grands LLM du marché utilisent la plupart du temps des données anglo-saxonnes pour leur entraînement, ce qui constitue un biais culturel ;
    • les régurgitations : c’est l’action "du perroquet" qui répète littéralement du contenu qui a servi à son entraînement sans transformation. Ces régurgitations peuvent provoquer des fuites de données potentiellement confidentielles et peuvent inclure du plagiat qui pose question sur le droit d’auteur des textes produits.

    L’intérêt des fonds documentaires disponibles dans les Ged ou les SAE

    professionnels-infodoc-conjuguent-intelligence-artificielle-numerique-responsable_vince.jpg

    Une publication parue en mai 2024 et publiée sous l’égide de l’Unesco/InterPARES Trust AI sous le titre "Artificial intelligence and documentary heritage", par Luciana Duranti et Corinne Rogers, explique l’intérêt de la RAG dans l’utilisation et le déploiement d’une IA éthique et qualitative et démontre la complémentarité d’un LLM préentraîné avec un fonds documentaire de qualité (archives, documentation, records).

    Cette architecture explique l’intérêt pour les métiers de l’infodoc de contribuer aux données d’entraînement et de RAG pour disposer d’un usage sécurisé de l’IA pour des utilisateurs, qu’ils soient internes ou externes.

    En synthèse, les fonds d’informations organisés et gérés dans des Ged, des ECM ou des systèmes d’archivage électronique (SAE) permettent de réduire les risques inhérents à l’IA, à savoir les hallucinations et les biais.

    Lire aussi : Dossier - Digitalisation responsable : l’IA rebat les cartes

    2. Infodoc et IA : au service de la décarbonation

    Les données de l’étude Arcep-Ademe de 2023 sur l’impact environnemental du numérique en 2030 et 2050 sont argumentées et précises. Rappelons d’abord que l’impact du numérique sur les émissions de gaz à effet de serre (GES) s’élève à 2,5 % en France et à 5 % dans le monde (cette différence s’explique par l’utilisation de sources d’énergie plus ou moins carbonées).

    Si rien n’est entrepris pour limiter ou réduire cet impact, la tendance de fond envisagée à horizon 2030 est un supplément de 45 % d’émissions eCO2.

    professionnels-infodoc-conjuguent-intelligence-artificielle-numerique-responsable_architecture_ia_et_rag.jpg

    Hélas, tout porte à croire que la tendance haussière ne sera pas évitée, d’autant plus que l’IA s’invite de manière massive. D’après le rapport "Ekectricity 2024" de l’agence internationale de l’énergie (IEA), faire appel à ChatGPT via un prompt serait en effet dix fois plus énergivore qu’une recherche sur Google : 2,9 Wh contre 0,3 Wh. À noter également l’écart de consommation entre une puce CPU, généralement de moins de 100 Wh, et celle des puces GPU de type Nvidia H100, qui s’élève à 700 Wh.

    En enrichissant les comparatifs de consommation et d’émissions par les différentes IA, le site Compar:IA, encore en version bêta, du ministère de la Culture, offre un aperçu pertinent et instructif de l’impact des différents modèles.

    Autre variable pertinente, le comparatif des émissions de carbone des différentes tâches réalisées par les modèles d’IA réalisé par Anne-Laure Ligozat, professeure en informatique à l’ENSIIE et au LISN et par Alex de Vries, doctorant à la School of Business and Economics de l’Université d’Amsterdam [voir illustration n° 2]. Le grand écart de moins de 1 g à 500 geCO2 est entre la génération d’image (autour de 400 g) et la classification d’un texte (moins de 1 g), avec un plateau central de 4 à 10 g pour la génération de textes, l’extraction, les synthèses, etc.

    les_emissions_par_modeles_professionnels-infodoc-conjuguent-intelligence-artificielle-numerique-responsable.jpg

    Lire aussi : Sommet de l’IA : les modèles open source défendus pour leur durabilité

    3. Comment agir ?

    Dans ce contexte d’alertes et d’augmentation numérique explosive, quelles actions les professionnels de l’information-documentations doivent-ils engager ?

    Tout d’abord, consolider, trier et traiter les données : combien de fichiers en multiples formats sont déversés en vrac dans les systèmes Windows ou dans les Ged/ECM, sans traitement ni enrichissement en métadonnées ou données de cycle de vie ? Ce sont souvent des données redondantes, obsolètes ou sans valeur (les bien connues données "ROT", pour "redundant", "obsolete" et "trivial").

    Qui n’a pas été confronté à des vracs numériques massifs ou à des bases de données ni à jour ni complètes ? Dans la pratique, après un tri et un traitement, les réductions constatées sont comprises entre 30 et 60 %.

    C’est là un travail qui demande savoir-faire et précision pour les professionnels de l’information-documentation. Le temps passé à paramétrer et le temps machine nécessaires sont le prix à payer pour disposer de données « propres » et qualitatives pour alimenter les IA, tant pour les entraînements et/ou le fine-tuning des LLM que pour la RAG.

    Tous les ingénieurs en IA le confirment : les données et leur qualité associée constitue la difficulté majeure pour alimenter l’IA, pour disposer de résultats exacts avec le moins de risques possible et pour faire fonctionner l’IA la moins carbonée.

    Plusieurs bonnes pratiques permettent de tendre vers un meilleur impact environnemental :

    • exposer des données moins carbonées, comme des données archivées ou gérées dans une Ged/ECM (l’écart entre un SAE et une Ged est d’un coefficient moins 22, de moins 305 par rapport à une messagerie) ;
    • utiliser la technologie de la RAG sur des données qualifiées ;
    • utiliser des LLM de petite taille, déjà entraînés, combinés avec une technologie de RAG ;
    • utiliser des LLM pour formaliser des requêtes sur des bases de données ;
    • utiliser des IA pour l’extraction de métadonnées et de classifications pour traiter des vracs.

    Ces bonnes pratiques ne sont pas exhaustives et chacune est à évaluer en fonction du contexte, des objectifs et, bien entendu, des risques.
     

    les_mesures_demissions_professionnels-infodoc-conjuguent-intelligence-artificielle-numerique-responsable.jpg

    Lire aussi : L’ENS et Capgemini créent l'Observatoire mondial sur l’impact environnemental de l’IA

    4. Conclusion : les trésors des pros de l’infodoc

    Les professionnels de l’information-documentation ont des trésors entre les mains : les fonds d’information et sa gouvernance, mais aussi les compétences requises pour répondre aux demandes des acteurs de l’IA, les méthodes et les outils pour mettre à disposition des données qualitatives comme quantitatives, les processus de gestion du cycle de vie des données et des documents, et enfin la clé pour la motivation à mettre en valeur les fonds d’information dont ils ont la responsabilité.

    À lire sur Archimag
    Les podcasts d'Archimag
    La mise à disposition des décisions de justice en Open Data a vu le jour grâce à la loi pour une République numérique votée en 2016. Les articles 20 et 21 prévoient la mise en open data des quatre millions de décisions de justice produites chaque année par les tribunaux français. Camille Girard-Chanudet est chercheuse en sociologie au sein du Centre d’étude des mouvements sociaux. En 2023, elle a soutenu une thèse devant l’École des hautes études en sciences sociales (EHESS) : "La justice algorithmique en chantier, sociologie du travail et des infrastructures de l’intelligence artificielle". Dans ce cadre elle a rencontré les équipes de la Cour de cassation qui procèdent à l’anonymisation des décisions de justice.