Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !
Au sommaire :
- Dossier : Les technologies du futur pour les pros de l'info
- Outils de veille - « Le déplacement du métier de veilleur est inéluctable »
- Bibliothèque de demain - « Les bibliothécaires peuvent accompagner les usagers dans ces nouvelles technologies »
- Archives - « L’intelligence artificielle a sa place dans le monde des archives »
- Transition numérique - « Aujourd’hui, les grandes évolutions concernent la data »
Le point de vue de Françoise Banat-Berger
Françoise Banat-Berger est directrice du service interministériel des Archives de France (Siaf).
Quels sont les prochains défis technologiques qui attendent les archivistes ?
Les archivistes sont aujourd’hui confrontés à deux défis majeurs. Le premier est la prise en charge d’archives numériques de plus en plus nombreuses (fichiers bureautiques, messageries) comme en témoignent notamment les derniers versements des cabinets ministériels, de productions audiovisuelles massives, ou également d’extraction de données à partir d’applications métiers ou de gestions électroniques de documents.
Les systèmes d’archivage électronique à même de prendre en charge ces données existent : le programme interministériel d’archivage électronique Vitam et la mise en production de l’offre de service Vitam accessible en service, que pilote aujourd’hui le ministère de la Culture, ainsi que d’autres solutions offertes par le secteur privé ou de l’économie sociale et solidaire.
La généralisation de leur déploiement est le premier enjeu. Le second consiste à « passer à l’échelle », c’est-à-dire à acquérir la capacité de verser en masse et régulièrement ces données.
Un autre grand défi concerne l’accès aux archives à distance, sachant que, selon les données d’activité des services d’archives en 2021, on compte aujourd’hui un usager en salle de lecture pour 330 internautes.
Les enjeux sont donc énormes, qu’il s’agisse de la visibilité des ressources archivistiques sur le web, qui repose pour nous sur l’énorme potentiel du portail FranceArchives, ou de la mise en place de solutions d’accès à distance sécurisé pour les ressources non encore diffusables sur internet.
L’intelligence artificielle (IA) a-t-elle sa place dans la fonction archive ?
L’IA a évidemment sa place dans le monde des archives, notamment autour de la reconnaissance automatique des caractères manuscrits. À cet égard, les Archives nationales ont été pionnières, avec une expérimentation sur les archives du Trésor des chartes, des inventaires du 18e siècle, ou enfin des répertoires de notaires.
Les Archives départementales lancent également des expérimentations, à l’image de celle menée par les Archives départementales de la Côte-d’Or.
Lire aussi : Comparatif tiers-archivage : choisir un prestataire pour ses archives
Nous avons également lancé, dans le cadre d’un projet de recherche porté par l’Ined et la société Teklia, une vaste opération similaire sur l’ensemble des recensements de population entre 1836 et 1936 qui permettra d’extraire près de 500 millions de données nominatives.
Le point de vue d’Emmanuelle Bermès
Emmanuelle Bermès est responsable pédagogique du master « Technologies numériques appliquées à l’histoire », au sein de l’École nationale des chartes.
Quelle est la place de l’intelligence artificielle dans la fonction archive ?
L’IA a de nombreuses applications potentielles pour les professionnels de l’information : de la fouille d’images à la reconnaissance d’entités nommées, en passant par la prédiction de politiques de conservation. Dans les archives, le cas d’usage le plus prégnant à l’heure actuelle porte sur la reconnaissance de l’écriture manuscrite ou HTR (pour handwritten text recognition).
L’IA permet d’entraîner un outil à analyser la mise en page d’un document et reconnaître différents types d’écritures, ce qui permet d’extraire du texte semi-structuré à partir de documents anciens numérisés en mode image.
Vous êtes investie dans le programme AI4LAM (Artificial Intelligence for Libraries, Archives and Museums). De quoi s’agit-il ?
AI4LAM est une communauté internationale de professionnels des bibliothèques, archives et musées qui s’intéressent à l’utilisation de l’IA dans ces domaines. Des événements, formations et groupes de travail sont régulièrement proposés. Il existe un chapitre (ou sous-communauté) francophone que chacun peut rejoindre.
Quelle est la place des technologies numériques dans l’enseignement au sein de l’École nationale des chartes ?
La spécialité de l’École des chartes est l’analyse des documents de tous types et de toutes périodes, du Moyen-âge à nos jours : prendre en compte l’évolution des fonds et des pratiques documentaires est au cœur de ses missions.
Le master « Technologies numériques appliquées à l’histoire », qui existe depuis plus de 15 ans, forme de jeunes professionnels spécialistes du traitement de la donnée et du document numérique. Les méthodes des humanités numériques sont également enseignées dans la formation des archivistes paléographes et dans un master dédié, porté par l’École au sein de PSL.
Lire aussi : ArchiLab, un enseignement au plus près des besoins informationnels des organisations
Ces compétences très pointues sont notamment investies dans le Consortium pour la reconnaissance d’écriture manuscrite des matériaux anciens (Cremma), un consortium spécialisé dans le déploiement de l’HTR, dont l’École des chartes est l’un des membres fondateurs.
Le point de vue de Stéphane Pouyllau
Stéphane Pouyllau est ingénieur de recherche hors classe CNRS, co-fondateur d’Huma-Num, Isidore et Nakala, et responsable du HN Lab.
Vous avez été à l’origine de MédiHAL (archive ouverte pour photographies et images scientifiques). De quoi s’agit-il ?
MédiHAL, créée en 2009 avec Daniel Charnay, Laurent Capelli, du CCSD, et Shadia Kilouchi (CNRS) est une archive ouverte qui permet de déposer des données visuelles et sonores (images fixes, vidéos et sons). La particularité de MédiHAL est qu’il s’agit d’un entrepôt de données qui s’adresse à toutes les disciplines des sciences.
Pour les communautés des sciences humaines et sociales, avoir une archive ouverte pour sauvegarder, documenter et valoriser les collections iconographiques des équipes de recherche était un besoin de plus en plus important.
Quels sont les défis à relever dans le domaine spécifique des archives scientifiques ?
Il y a un double aspect : la conservation des archives scientifiques, ce qui renvoie aux méthodes et techniques en archivistique et en même temps l’exploitation scientifique des contenus de ces archives. Si le signalement des fonds dans le portail Calames est important, il faut aussi permettre aux programmes de recherche de puiser de l’information dans les contenus de ces fonds.
Après la numérisation des fonds, il s’agit d’en permettre l’exploitation à grande échelle. Cela passe par l’utilisation de l’IA par exemple, avec les outils de HTR qui se développent fortement aujourd’hui dans les équipes de recherche en SHS.
Lire aussi : Valoriser les publications scientifiques de son institution avec un portail HAL
L’intelligence artificielle a-t-elle quelque chose à apporter aux archivistes ?
Absolument. Outre l’exploitation des fonds numérisés, l’IA peut contribuer à la fabrication d’instruments de recherche pouvant offrir plusieurs types d’accès pour faire de la recherche. L’IA peut aider à passer d’instruments statiques (par exemple des collections d’instruments en EAD-XML) à la création de moteurs de recherche dynamiques sur ces instruments de recherche.
Au-delà, l’usage de l’IA permet de développer des outils de traitement de l’information à très grande échelle, et donc pour les fonds d’archives. Par exemple, avec l’aide de la Scop Datactivist, nous avons développé des modèles d’IA pour le traitement des archives des réponses au Grand Débat de 2019.
Cela a permis d’offrir une vision des toponymes du Grand Débat ou encore d’aborder des questions de spatialisation et de localisation des références textuelles, etc. L’IA peut fournir des boîtes à outils intéressantes pour construire de nouvelles interactions entre archives et programmes de recherche.