CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N° 381 : Protection des données en entreprise: quelle stratégie à l'ère de l'IA ?
Au sommaire :
- Dossier : protection des données en entreprise : quelle stratégie à l'ère de l'IA ?
- Data : une vigilance à chaque étape du cycle de vie
- Stratégie de protection des données : les 5 points clés
Découvrez Le Brief de l'IT, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des data, de l'IT, de la digitalisation et de la transformation numérique !
Or noir du XXIe siècle, carburant de l’économie numérique, trésor informationnel… Au fil des années et des avancées technologiques, les données ont démontré leur intérêt stratégique pour tous types d’usages, que ce soit pour améliorer les produits et services des organisations, pour cibler des prospects ou pour produire de l’information de qualité en vue d’une prise de décision éclairée. Protéiformes, elles font de plus en plus souvent l’objet d’un soin particulier au sein des entreprises. Et avec la démocratisation des grands modèles de langage (LLM), la donnée est plus que jamais indispensable pour alimenter l’intelligence artificielle (IA) et constitue donc un avantage concurrentiel majeur.
En contrepartie, la responsabilité des organisations vis-à-vis de la protection de cette matière première (données personnelles, données RH, données des organismes financiers, etc.) se durcit. Alors que l’arsenal législatif se renforce, on assiste à une prise de conscience du grand public et à la nécessité de mettre en place des pratiques plus éthiques de la part des entreprises… Tout le monde est concerné.
Et dans ce domaine, c’est l’ensemble du cycle de vie de la donnée qui demande une attention particulière. Si la protection des données demande une approche globale, chaque étape de ce cycle dispose de son lot de problématiques. À plusieurs niveaux, l’intelligence artificielle peut aussi bien représenter un atout qu’une nouvelle menace.
Lire aussi : La donnée : quel statut juridique ?
Collecte et gestion intelligente
Les organisations disposent d’un grand nombre d’outils et de techniques pour collecter des données : reconnaissance optique des caractères (OCR), reconnaissance intelligente des caractères, web scraping, outils de web analytics, mais également les systèmes d’archivage électronique (SAE) ou de gestion électronique de document (Ged).
Par exemple, l’éditeur Luminess propose une solution de data capture à base d’intelligence artificielle. "Elle est beaucoup utilisée dans les domaines de la banque, de l’assurance ou de la santé pour de la vérification d’information ou dans la mise en conformité", décrit Clémence Martinot, responsable du pôle Data/IA chez Luminess. "La data capture traite des documents (justificatifs d’identité ou de revenus, cartes grises, cartes vitales ou de mutuelles…) pour en extraire les informations en temps réel. Avec cette solution, nous sommes amenés à traiter les données personnelles d’un quart des Français."
Pour protéger ce large volume de données, Luminess a mis en place plusieurs garanties. "Tous nos data centers sont en France, nous sommes certifiés ISO 27001 et hébergeur de données de santé (HDS), et nous avons des protocoles d’accès très sécurisés", poursuit Clémence Martinot.
L’éditeur explique travailler sur des environnements qui peuvent être des bulles quasi étanches, coupées d’internet, isoler physiquement les données collectées entre ses différents clients et les effacer de ses serveurs dès que leur traitement est terminé. Chez Luminess, l’intelligence artificielle est abordée comme toutes les autres technologies, qui présentent des avantages, mais aussi des failles.
Lire aussi : Judith Mehl : "sa capacité d'adaptation fait la force de Luminess"
Privacy by design : la protection des données dès la conception des outils
Avec l’IA, les éditeurs de logiciels et de solutions de collecte et de gestion se positionnent davantage sur un modèle de privacy by design (protection de la vie privée dès la conception). "Nous allons réfléchir dès la phase de conception à la gestion des données", confirme Clémence Martinot. "L’apprentissage de nos IA se fait dans des environnements sécurisés. De plus, nous optimisons le volume de données d’entraînement ou travaillons avec des données “synthétiques” et nous cherchons à les “avatariser”."
Pour LetXbe, plateforme no-code d’intelligent document processing (IDP), l’intelligence artificielle est aussi un atout pour la sécurité et la fiabilité des données.
Ainsi, la réglementation vient comme une opportunité pour améliorer la qualité des services et challenger les développeurs de logiciel : "dans la pratique, l’IA offre la possibilité “d’obfusquer” des données, c’est-à-dire de les rendre illisibles pour qu’elles ne soient pas exploitées de façon non autorisée", explique Pierre Magrangeas, CEO de LetXBe. "Par exemple, en masquant les numéros de sécurité sociale sur des feuilles de paie qui seraient traitées par un prestataire. Des outils comme le nôtre permettent de réaliser cette opération à grande échelle." LetXBe a aussi misé sur une IA souveraine hébergée, évaluée et entraînée en interne.
Lire aussi : Le RGPD, 6 ans après : quel bilan pour la protection de nos données personnelles ?
Sécuriser la donnée en action
Dans le cycle de vie des données, leur analyse et leur utilisation constituent également des défis. Que ce soit au sein d’un outil de datavisualisation, dans une base de données ou dans des solutions d’analyses prédictives, les mesures de sécurisation passent aussi par la gestion de l’accessibilité des outils.
"Les risques liés aux accès constituent un enjeu majeur", confirment Médéric Azzouzi, technical partner success manager et Benjamin Louppe, chief data officer, chez MyReport, un éditeur de solutions de business intelligence. "Les accès non autorisés peuvent se produire de diverses manières : par des personnes non habilitées, par une élévation incontrôlée de privilèges ou encore par un partage inapproprié des données entre services".
Cela peut être le cas, par exemple, d’un employé administratif d’un hôpital qui aurait accès à des dossiers médicaux complets alors qu’il ne devrait pouvoir consulter que des informations administratives. Ici, une politique de gouvernance des données reste un atout majeur dans la protection des données.
De plus, l’IA amène une couche supplémentaire de points de friction : "les modèles prédictifs peuvent involontairement révéler des informations sensibles", indiquent Médéric Azzouzi et Benjamin Louppe. "Les capacités accrues des systèmes automatisés, les nouvelles techniques de réidentification et l’interconnexion croissante des systèmes d’information accentuent la vulnérabilité globale."
D’autre part, les modèles d’IA - comme d’autres logiciels et outils informatiques - peuvent être la cible d’attaques malveillantes visant à manipuler leurs résultats. "Aujourd’hui, il existe des attaques qui utilisent des IA programmées pour attaquer d’autres IA", ajoutent-ils. "Une IA attaquante peut être programmée pour explorer toutes les possibilités jusqu’à atteindre son objectif (comme récupérer des données sur un compte particulier). Dans ce cas, les principes de sécurité classiques restent valables, par exemple en programmant le système pour éviter de répondre à des sollicitations excessives."
Lire aussi : Dossier data gouvernance : prenez le pouvoir sur vos données !
Le stockage et la fin de vie
Impossible de parler du cycle de vie des données sans aborder la question de leur stockage et de leur conservation. Et d’autant plus en matière de protection. Si l’impulsion du "cloud souverain" a peu à peu déserté les éléments de langage du gouvernement ces dernières années, les organisations, les éditeurs de solutions et la plupart des opérateurs de cloud s’y tournent de plus en plus.
Ainsi, au regard de lois telles que le Cloud Act, (qui permet à la justice américaine de récupérer les données des fournisseurs opérant aux États-Unis, quelle que soit la localisation de leurs serveurs), la souveraineté des outils et du stockage fait partie des préoccupations du plus grand monde. "Peu d’acteurs garantissent à 100 % cette imperméabilité", précise Germain Masse, product marketing manager, artificial intelligence & data chez OVH. "Notre position en tant qu’acteur européen permet de garantir un hébergement souverain et conforme aux réglementations."
En fonction des données hébergées, les acteurs du stockage peuvent attester de certifications : ISO, HDS ou encore SecNumCloud, pour les opérateurs d’importance vitale (OIV). "Même les entreprises avec des politiques de sécurité élevées peuvent être affectées par une fuite ou par toute autre brèche de sécurité", remarque Germain Masse. "Il est donc nécessaire de mettre en œuvre des pratiques de sécurité pour minimiser les risques."
Concernant les modèles d’IA, il est important, selon Germain Masse, que les solutions soient open source et hébergées en Europe pour réduire les risques. "L’IA pose des questions de confidentialité", explique-t-il. "Elles concernent les données personnelles, mais aussi les données d’entreprise qui peuvent servir à l’espionnage industriel."
Du côté de la conservation des données, celle-ci doit être limitée dans le temps et répondre à des impératifs. Si une politique de purge permet non seulement de se mettre en conformité et de réduire les risques de compromission [NDLR : le référentiel du cycle de vie des documents et des data de Serda-Archimag reste une valeur sûre en la matière !], l’IA intégrée à des outils de data cleaning peut être utile pour automatiser l’identification des données pertinentes et la suppression.
Malgré tout, certaines entreprises peinent encore à gérer correctement leurs données et, pour certaines, l’heure est au "data empowerment", c’est-à-dire à la suppression des obstacles qui entravent l’accès aux données par les utilisateurs et les métiers afin d’accélérer la prise de décision grâce au libre-service. Ce qui implique, naturellement, la mise en place de mesures de protection et d’accompagnement pour assurer la sécurité, la confidentialité, le contrôle et la gouvernance.
Lire aussi : Du cloud vers une nouvelle culture de la donnée
Protection des données personnelles et IA, un sujet majeur pour la Cnil
Que l’on travaille avec des outils d’intelligence artificielle ou non, à partir du moment où des données personnelles sont utilisées, le RGPD entre en jeu.
"Dès lors qu’une organisation est responsable des traitements mis en œuvre, elle aura l’obligation de respecter les grands principes du RGPD, ce qui implique notamment d’assurer la transparence des traitements, d’organiser l’exercice des droits des personnes, ou encore de fixer les durées de conservation des données", explique Sarah Artola, juriste au service de l’économie numérique et des services financiers de la Cnil. "Cela implique également de sécuriser les données et d’adopter d'une démarche de mise en conformité continue. La Cnil mène des travaux pour préciser comment ces obligations prévues par le RGPD s'appliquent en matière d'intelligence artificielle."
Ces recommandations concernent ainsi tout responsable d’un traitement de données à caractère personnel impliquant de l’IA. Ils peuvent être catégorisés en deux grands types d’acteurs : "nous distinguons les développeurs (ceux qui entraînent et affinent les modèles d’IA) et les déployeurs (ceux qui mettent à disposition un système d’IA, par exemple en mettant à disposition un chatbot)", précise Nicolas Berkouk, expert scientifique en IA à la Cnil.
L’utilisation d’outils à base d’IA nécessite de mettre en place toute une série de mesures. "La Cnil recommande notamment d’impliquer le DPO à toutes les étapes du projet et de réaliser une analyse d’impact pour bien évaluer et prévenir les risques qu’implique le déploiement de l’IA et de se poser les bonnes questions : quel système d’IA choisir, quel mode de déploiement privilégier, etc.", indique Sarah Artola.
"Il faut cadrer le plus finement possible les usages autorisés et, en miroir, l’entreprise doit déterminer les utilisations formellement interdites", reprend Nicolas Berkouk. "Il est important d'envisager des campagnes de formation pour sensibiliser les collaborateurs aux risques métiers : manque de fiabilité des IA génératives, risques de divulgation de données personnelles ou sensibles, etc."
En fonction du type de solution, les risques à prendre en compte peuvent différer. Par exemple, si une organisation utilise une API ou un chatbot de type ChatGPT d’OpenAI, elle devra s’intéresser de près à la politique de confidentialité du pourvoyeur de service. Un déploiement local permet au contraire de mieux maîtriser les traitements de données, mais représente un coût certain.
L’ensemble des ressources de la Cnil est disponible sur son site internet et fait l’objet de webinaires ouverts aux organisations.
RGPD : des difficultés de conformité au sein des entreprises
Le RGPD impose des règles strictes sur la collecte, le traitement et le stockage des données. Debora Cohen, avocate en protection des données personnelles et en propriété intellectuelle et DPO externalisée, revient sur les principales difficultés rencontrées par les entreprises pour se conformer à cette législation, notamment avec l'usage croissant de l’IA.
- un trop faible niveau de conformité des entreprises au RGPD :
"Bien que le RGPD soit entré en application en 2018, de nombreuses entreprises n’ont toujours pas atteint un niveau de conformité adéquat. Or, elles se rendent compte que le fait de disposer de bases de données dont la conformité n’a pas été vérifiée ou de ne pas avoir suffisamment formé leurs salariés est devenu un obstacle à leur progression. Il est donc nécessaire qu’elles reprennent les grands principes du RGPD, notamment en désignant un délégué à la protection des données (DPO) qualifié et expérimenté."
- l’application du nouveau règlement européen sur l’IA (RIA) :
"Ce règlement est très technique. Bien que nous soyons encore en attente de lignes directrices et de recommandations de la part des instances européennes, les entreprises doivent se former dès maintenant afin d'éviter de se retrouver avec des projets ou des usages informatiques non conformes à la réglementation."
- l’articulation entre le RGPD et le RIA :
"Les deux réglementations se croisent et le RIA cite d'ailleurs le RGPD. Il est impératif que les entreprises soient conscientes de ce nouveau défi afin de pouvoir innover en toute conformité."