Contre un vrac numérique, l’IA n’est pas automatique

Les serveurs débordent. On ne s’y retrouve pas et il faut mettre de l’ordre. Quoi de mieux qu’une intelligence artificielle, si possible générative, pour résoudre ce vrac numérique ? Avec des approches parfois différentes, les éditeurs invitent à doser le recours à cette technologie.

On fantasme volontiers sur l’intelligence artificielle (IA) générative, que l’on imagine capable de tout résoudre. Or, en matière de vrac numérique, et comme toujours en gestion de l’information, un questionnement en amont précède la mise en place d’un outil.

Vous avez dit "vrac numérique" ?

"L’expression “vrac numérique” est surtout utilisée par les spécialistes", remarque Philippe Delahaye, directeur général adjoint de la division archivage numérique de Docaposte. Dans les entreprises ou les administrations, il correspond à des situations souvent proches.

Ce sont notamment des espaces collaboratifs, de type Microsoft Sharepoint, qui, victimes de leur succès, ne cessent de prendre du volume. Doublons, triplons et fichiers égarés deviennent des symptômes quotidiens. Certaines entreprises croient qu’il faut tout garder, ignorent la gestion des données personnelles et le règlement général sur la protection des données (RGPD).

La productivité s’en ressent, les collaborateurs passent trop de temps à rechercher tels ou tels documents, les risques s’aggravent : est-on capable de faire face à un contentieux et d’apporter des preuves ? De produire des documents pour obtenir un agrément ? D’éviter de s’exposer à une amende de la Cnil pour non-respect de la réglementation sur les données personnelles ?

Une gravité qu’Hervé Streiff, directeur de la stratégie digitale pour le groupe Xelians, relativise. "Dans une organisation, ce qui est sensible est processé", observe-t-il. "Une organisation qui ne traite pas ce qui est sensible ne marche pas".

Par exemple, un contrat est entre les mains d’un commercial, il est revu par un juriste et validé par la direction : c’est un actif important, on sait où il est rangé. Autrement dit, il n’y a, selon lui, pas de vrac pour ce qui est sensible ; et s’il y en a, c’est qu’il concerne du non sensible… Alors, est-ce si grave ?

Mais les problématiques ont plusieurs dimensions, comme le rappelle Noureddine Lamriri, vice-président product marketing d’Everteam. Et d’évoquer l’efficacité des équipes, la conformité, le coût (un volume surabondant peut obliger à passer d’un hébergement gratuit à un hébergement payant et à faire augmenter cette facture), le respect de l’environnement (l’impact CO2 du gigaoctet archivé) et même la cybersécurité.

Il cite le cas d’une entreprise ayant subi une cyberattaque : deux téraoctets de données lui sont volés, mais elle n’en connaît pas suffisamment le contenu pour évaluer la gravité du vol. Elle doit donc analyser ce vrac numérique.

Question de gouvernance

Et si la question n’était pas tant de gérer du vrac numérique, mais de savoir pourquoi l’organisation a sombré dans cette situation ? Hervé Streiff préconise une approche de type records management permettant d’identifier les processus clés, de manière à collecter les documents sensibles pour les structurer et les ranger.

Dans le même ordre d’idée, Philippe Delahaye déplore des situations où les managers et les collaborateurs sont livrés à eux-mêmes pour la gestion de l’information. La plupart du temps, ils n’appliquent pas les règles de gestion et de conservation - quand elles existent ! Cela est particulièrement vrai dans les PME et ETI. "Bien souvent, ces entreprises n’ont pas de politique d’archivage ou de gouvernance de l’information et ne sensibilisent pas les collaborateurs sur ce sujet".

Face à un vrac, un processus peut tout de même être mis en œuvre. Everteam préconise de s’appuyer sur la méthode Deming d’amélioration continue, avec ses quatre phases : préparer, développer, contrôler, agir (plan, do, check, act, PDCA). Ainsi, il convient de :

diagnostiquer le vrac : lecture et extraction de données, présentation d’indicateurs. Le résultat peut permettre de convaincre les décideurs d’aller plus loin,
définir un plan d’action : pour réduire le volume, enrichir les métadonnées (par exemple, les codes projets à appliquer aux documents afférents)… L’on pose un planning,
exécuter et contrôler : on paramètre et configure l’outil, que le client recette… On teste,
agir : on exécute le traitement et donc on ajoute des métadonnées, on renomme des documents, on en supprime, on en déplace.

Un bilan est ensuite opéré : soit les objectifs sont atteints, soit "on rejoue la boucle", car c’est un processus agile, avec des itérations. Noureddine Lamriri précise que le projet ainsi mené peut avoir un terme (ex. : on parvient à traiter un vrac en vue de la migration d’un système de fichiers), comme il peut aussi s’inscrire dans la durée : après la migration, on apporte un suivi pour le maintien de la qualité.

Philippe Delahaye ajoute une touche d’archivage : on peut se baser sur un référentiel et appliquer des durées de conservation.

Doser l’IA

Côté outil, dans une logique d’archivage, Arkhineo de Docaposte propose des modules de préparation des versements, configurables, intégrés au portail de la solution. Des tâches manuelles sont prévues au sein d’un workflow. Un documentaliste fait un premier niveau d’analyse, avec élimination des doublons, conservation des documents importants, attribution d’un plan de classement selon les métadonnées.

Une autre personne est chargée de la validation. Le travail généré est donc conséquent, alors que la mise en œuvre est facile, avec une demi-journée de formation. Pour l’utilisateur, rien de son quotidien n’est changé. Pour des résultats pérennes, il faut périodiquement recommencer.

Pour sa part, Xelians propose deux approches. La première consiste en un module, Xelians Datahub. C’est un ETL (extract-transform-load) avec notamment un connecteur Sharepoint. Il permet d’y faire du moissonnage selon des critères paramétrés et d’envoyer les documents dans un environnement structuré tel un système d’archivage électronique (SAE).

Le processus est à relancer à intervalles réguliers. La seconde approche consiste en un partenariat avec l’éditeur Solution365 et son outil SoDoc. Le principe est d’intégrer une Ged directement dans Sharepoint et, à échéance, d’ouvrir un circuit de validation de documents avec structuration, traçabilité, puis rangement, soit dans un environnement Sharepoint, soit dans un SAE. Le cas échéant, des moteurs d’IA sont appelés.

Avec Everteam, la technologie mise en œuvre "n’a rien à voir avec un système d’archivage ou une Ged traditionnelle", annonce Noureddine Lamriri. Elle déploie différentes phases : extraction de métadonnées natives, déduction de métadonnées, détection de métadonnées (en particulier entités nommées), classification selon des règles, avec des bots ou composants automatisés (pour supprimer des données personnelles, verser dans un SAE), travail sur des documents difficiles à classer rationnellement, disposant de peu de métadonnées.

Plus l’exigence monte, plus l’intelligence artificielle est présente. D’abord du deep learning pour les métadonnées… Un besoin d’"intuition" apparaissant, un apprentissage plus poussé sera nécessaire, recourant à la proximité morphosyntaxique et sémantique… Enfin, de l’IA générative pour les cas les plus problématiques. Ainsi, précisant que le laboratoire d’Everteam travaille sur l’IA depuis une quinzaine d’années, Noureddine Lamriri emploie le terme d’"IA composite" intégrée à Everteam, soit un éventail de technologies IA prévues pour être actionnées au bon moment selon la valeur qu’elles apportent.

Dans la même tendance, Xelians, avec SoDoc, travaille sur un montage où, sur une sélection de documents, pour des analyses et des actions plus poussées, des outils d’IA supplémentaires seraient injectés. Chez Docaposte, où l’IA est aussi présente depuis longtemps, machine learning et IA générative ne sont pas intégrés à la solution, mais proposés aux clients en mode projet, selon une réflexion en amont.
Hervé Streiff souligne que l’IA générative est chère.

C’est pourquoi il est intéressant de combiner des IA traditionnelles à faible coût avec de l’IA générative. Mais n’allons pas vers de l’IA générative "à tout faire". Philippe Delahaye conclut cependant : "avec les progrès de l’IA, le paysage va changer dans les mois qui viennent et ce sera plus facile de proposer des solutions plus aisées et moins coûteuses".

Contre un vrac numérique, l’IA n’est pas automatique

vac-numerique-intelligence-artificielle.jpg

Vous avez dit "vrac numérique" ?

Question de gouvernance

Doser l’IA

Les derniers mags :

Les derniers guides :

everteam : L'IA générative et le machine learning au service de la GED /Archivage

SPS Commerce : Evaluez vos options EDI, Sept éléments constitutifs d’un service complet d’EDI

Oodrive : Guide Juridique de la Signature électronique : De la loi à l’application

Alfeo : Rapport d’enquête : Les organisations françaises face à la gestion des connaissances

Archimag : Facturation électronique : soyez en première ligne !

Partitio : Transport et Logistique : vers une chaîne logistique plus collaborative, digitale et centrée sur le client ? Les cas du Dossier Transit et du Rapprochement des Factures