CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°380
Découvrez Le Brief de l'IT, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de l'IT, de la digitalisation et de la transformation numérique !
"Oui, Votre Honneur, j’avoue : j’ai confié la rédaction de ma plaidoirie à ChatGPT et il a inventé de la jurisprudence !", a dû expliquer un avocat américain au juge auquel il s’adressait. Il avait en effet demandé à cette intelligence artificielle (IA) générative publique de rédiger à sa place une plaidoirie dans une affaire qui lui semblait simple. Il lui avait même demandé d’étayer ses arguments en s’appuyant sur de la jurisprudence. Malheureusement, l’IA a tout inventé !
Cette mésaventure, que l’on appelle "une hallucination de l’IA", aurait pu être évitée si le cabinet d’avocats avait encadré l’utilisation de l’IA d’une démarche de gouvernance. Vous connaissez la gouvernance de l’information et sa norme ISO 24143… Découvrons ensemble la gouvernance de l’IA et ses facettes.
Lire aussi : La gouvernance de l'information numérique en 2024 : sujets centraux et thèmes émergents
Le catalogue de données, jonction entre gouvernance des données et de l’IA
Qu’elles soient symboliques, connexionnistes ou génératives, les IA ne mentent pas. Elles n’en sont pas capables. Elles ne réfléchissent pas et n’ont pas d’émotions. Elles se contentent de calculer à partir des données d’entrainement qui leur ont été fournies. Et si les données initiales sont fausses, biaisées, discriminatoires ou incomplètes, ainsi seront les réponses du modèle.
Ne blâmez ni le moteur ni l’ordinateur : blâmez celui qui les a alimentés. Car aucune IA ne pourra aujourd’hui détecter des imperfections dans ses données d’entrainement. Le processus est similaire à celui de l’apprentissage d’un être humain. Chez nous, on appelle cela l’éducation ; dans le monde des IA, cela s’appelle l’entrainement.
Savoir quelles données sont utilisées pour entrainer quel modèle ; qui en est à l’origine ; si ce sont des données protégées (personnelles, de santé…) ; quel est leur niveau de qualité ; leur conformité éventuelle, etc. Il s’agit là de la clé de voute de la gouvernance des données utilisées par l’IA. Les deux sujets (gouvernance des données et gouvernance de l’IA) se croisent ici et s’appuient sur la même brique logicielle : le catalogue de données.
Dans votre catalogue de données, vous indiquerez dans chaque fiche si cette donnée est utilisée par l’IA, par quel modèle. Ainsi, vous pourrez naviguer entre les données et les modèles, dans les deux sens. Pour les IA sensibles, cela se révèlera d’ailleurs un allié de poids pour réaliser l’analyse d’impact (AIPD), obligatoire lorsque des données personnelles sont utilisées (selon le référentiel de la CNIL).
Lire aussi : AI Act : le calendrier d’application des mesures
Identifier et référencer les modèles utilisés
Mais un catalogue de données et de jeux de données ne suffira pas. Il faut aussi référencer les modèles utilisés. Les modèles, ce sont les algorithmes (les équations) qui sont appliqués aux données pour produire des réponses. Ce sont des "traitements" au sens du RGPD, par exemple (à ce titre, ils figureront d’ailleurs dans le registre des traitements et seront audités par le DPO). Mais de manière générale, les bonnes pratiques de gouvernance consistent à tracer le lien entre les données et les modèles, et à conserver ce lien. On appelle cela la traçabilité, ou le "lineage", en anglais.
Les modèles d’apprentissage automatique, tout comme ceux de l’IA générative, fonctionnent parfois comme des boites noires. Pas facile d’analyser comment une décision a été prise par l’IA. La seule méthode consiste parfois à analyser les entrées et les sorties, et ainsi à détecter les biais, préjugés et discriminations.
Posez la question à ChatGPT : "Philippe aime le bœuf bourguignon. Quel est le plat préféré de Mohammed ?". Il vous répondra sans doute "le couscous". Vous pouvez aussi essayer avec Dimitri ou Lorenzo. C’est un biais d’entrainement du modèle, presque impossible à détecter sauf en réalisant des tests comme celui-ci.
Parfois, pour des raisons légales, il faut être capable de justifier les réponses apportées par l’IA. Et donc être capable de suivre les réponses du modèle et ce que l’on appelle leur dérive. Cela se fera au travers d’un outil dédié. Il en existe pour l’instant peu sur le marché, mais ils sont en cours de développement.
Lire aussi : Dossier data gouvernance : prenez le pouvoir sur vos données !
Dis-moi ce que tu fais, je te dirai qui tu es
Les modèles d’IA ne sont pas nativement bons ou mauvais. La notion de bien et de mal, tout comme celle de vrai ou de faux, n’est d’ailleurs pas comprise par l’IA. Un modèle qui fonctionne correctement peut être utilisé pour de bons ou de mauvais usages. Par exemple, je peux analyser les consommations électriques d’un foyer pour en déduire le nombre de personnes qui y vivent et adapter leur offre tarifaire. Mais si j’utilise cette même information pour vérifier qu’ils se conforment au bail qu’ils ont signé dans un logement HLM, cela peut devenir un usage non conforme.
L’être humain est spécialiste du sujet : les armes ont été conçues pour lui permettre de chasser et de se nourrir, mais il a rapidement trouvé d’autres usages dommageables à son espèce. L’AI Act européen mis en œuvre en 2024 est d’ailleurs clair sur ce point : il ne classifie pas les modèles, mais les usages. Certains sont à surveiller, d’autres sont à risques, et d’autres encore totalement interdits.
Hors de question de laisser les départements métier et les informaticiens développer n’importe quel usage, sans un cadre de gouvernance. La loi nous aide à créer ce cadre, mais des choix éthiques peuvent également intervenir. Acceptez-vous que vos modèles calculent des résultats différents en fonction du genre, de l’âge ou de l’adresse d’une personne ? La loi ne régit pas tout. Et chaque organisation doit décider - et justifier - le cadre dans lequel elle souhaite agir.
Le DPO et le responsable de la gouvernance à la manœuvre
Se pose donc la question du "qui" ? À quelle personne ou à quelle équipe reviennent la mise en place et le suivi de la gouvernance des données, des modèles et des usages de l’IA ? Plusieurs personnes sont en concurrence pour cette mission. Une concurrence d’ailleurs toute relative, car ce travail est parfois perçu en interne comme contraignant et les candidats ne se bousculent pas. Mais en réalité, c’est un travail collégial. On recommandera d’ailleurs de ne pas en faire porter la responsabilité à une seule personne, mais plutôt à un comité de gouvernance et à un comité d’éthique, en partie composé de personnes extérieures à l’organisation.
La gouvernance des données et de l’IA sont deux sujets très proches. Aux États-Unis, les professionnels de la gouvernance de l’information sont nombreux à prendre en charge celle de l’IA. On les appelle des CIGO/AI pour "chief information governance officers/artificial intelligence". En plus de gouverner les données, ils prennent en charge le suivi des modèles et la surveillance des usages.
Rattachés à la direction générale ou à une direction audit et conformité, ils mettent en place ce cadre général indispensable. Mais ils œuvreront main dans la main, avec le DPO et le RSSI en charge, lui, de la sécurité informatique. L’architecte de données sera également leur allié, tout comme les départements métier et informatique. Un travail de coordination et de diplomatie de haut niveau !
Un tableau de bord pour superviser la gouvernance
Et pour conclure ce panorama, outillons le responsable de cette gouvernance globale. Des cockpits de pilotage de son action et du respect des cadres mis en place lui seront indispensables. Ce tableau de bord regroupera les indicateurs de suivi de la gouvernance des données (pourcentage de données référencées dans le catalogue, contrôles de qualité en place, biais détectés, liens avec les modèles…), de gouvernance des modèles (traçabilité entrées-sorties, dérive, nombre d’utilisateurs…) et de suivi des usages (conformité avec l’AI Act et le RGPD, liens entre les référents données, les référents modèles et les responsables métier des usages…). Ce tableau de bord devra être mis en place dès les premiers projets d’IA en développement.
Malheureusement, les biais, les discriminations et le non-respect des règlements ne se produisent pas simplement lorsque de nombreux modèles sont déployés. Il faut anticiper. C’est ce que l’on appellerait la "Governance by design" : mettre en place les briques essentielles de gouvernance dès la conception.