RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE GUIDE PRATIQUE : IA GÉNÉRATIVE : L'UTILISER DANS SES PROJETS PROFESSIONNELS
Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation.
Cela fait désormais plusieurs années que les archivistes recourent à l’intelligence artificielle (IA). En particulier dans le cadre de la reconnaissance automatique des écritures manuscrites (ou HTR pour handwritten text recognition) : "l’IA peut aider les archivistes à transcrire ces documents, mais cela ne se fait pas en appuyant sur un bouton", expliquait Bruno Ricard, directeur des Archives nationales, à Archimag en décembre dernier. "Ce sont les archivistes qui ont "entraîné la machine" pour la rendre capable de reconnaître les lettres, les mots et la structure des documents". À ce jour, les Archives nationales sont parvenues à un taux de fiabilité de transcription de plus de 90 %.
Appliquée au monde des archives, l’intelligence artificielle peut se révéler particulièrement utile pour mener des recherches académiques. C’est le cas du projet Socface qui, sous la houlette du Service interministériel des archives de France (Siaf), réunit des archivistes, des démographes, des économistes, des historiens et des informaticiens.
Ces différents métiers travaillent ensemble pour mettre au point des technologies de traitement à grande échelle de vastes séries de documents historiques. Notamment les vingt recensements de la population menés entre 1836 et 1936. Objectif : étudier les changements de la société française sur un siècle grâce à l’exploitation d’une source décrivant précisément la population.
Lire aussi : Lectaurep: l’IA appliquée aux archives notariales
Traitement automatique des archives avec l'IA
Après avoir été numérisés, les recensements ont été transcrits automatiquement et analysés pour constituer une base de données de plusieurs millions d’individus. Résultat : le public pourra effectuer des recherches nominatives ponctuelles. "Les informations disponibles dans les listes nominatives seront diffusées en open access, permettant à quiconque de parcourir librement ces enregistrements" , expliquent les promoteurs de Socface.
Les chercheurs, quant à eux, sont en mesure de mener des études en histoire économique, démographique ou sociale. Très concrètement, ils pourront s’appuyer sur des archives pour étudier les évolutions du marché du travail, des mobilités ou des inégalités. Socface présente une particularité : une entreprise privée, Teklia, apporte son expertise en matière d’analyse de contenu grâce à l’intelligence artificielle, en particulier pour le traitement automatique des listes nominatives de recensement.
Lire aussi : Quand les archives font appel à l'intelligence artificielle
Recherche plein texte dans les manuscrits
Autre retour d’expérience, le programme Himanis est mené à l’échelle européenne et s’est fixé pour objectif de développer des outils pour l’indexation et la recherche en plein texte dans les manuscrits médiévaux. Plus de 75 000 pages de ces derniers ont été indexées par les partenaires (publics et privés) de ce programme. Une prouesse rendue possible par l’IA, alors que ces registres cumulent les difficultés : mise en page irrégulière, plurilinguisme (latin, français, occitan...), écriture tracée par des centaines de scribes différents...
"La machine a été entraînée à lire grâce à des éditions anciennes et des transcriptions, pourtant fautives parfois, couvrant à peine 0,5 % du corpus complet", soulignent les promoteurs d’Himanis. "Elle a ainsi non seulement appris à lire, mais aussi à résoudre les abréviations, pourtant nombreuses, des originaux, et à identifier les scribes. Les nouvelles technologies et l’intelligence artificielle révolutionnent l’accès aux documents et inventaires des institutions culturelles".
Pour la première fois au monde, les partenaires d’Himanis sont parvenus à convertir et à structurer automatiquement des inventaires manuscrits des Archives nationales (12 inventaires, soit 1500 pages). Mieux : ils ont pu indexer massivement le plein texte des registres médiévaux de la chancellerie royale française, dits "registres du Trésor des Chartes".
Lire aussi : IA et bibliothèques : les cas d’usage
Reconnaissance de la structure de documents
Les archivistes français ne sont pas les seuls à exploiter les promesses de l’IA. Outre-Atlantique, les équipes de l’Université de Montréal (UdeM) ont décidé de recourir à cette technologie pour faire parler le fonds Louis-François-Georges Baby (avocat et homme politique québécois né en 1832 et mort en 1906.), constitué au XVIIe siècle.
Légende : Un document issu du fonds Louis-François-Georges Baby de l’Université de Montréal. (Amélie Philibert/ Université de Montréal)
Ce corpus est composé de documents manuscrits relatifs aux populations autochtones du Québec. Problème : l’écriture manuscrite y est souvent illisible. Un défi pour les historiens, alors que ce fonds est en mesure d’apporter des réponses à des questions historiques non résolues : quel sort était réservé aux personnes reconnues coupables de commerce illicite d’alcool en 1667 ? Quelle était l’étendue de la concession territoriale, dans les environs de Sillery, accordée en 1642 par les Augustines de l’Hôtel-Dieu de Québec aux autochtones de Tadoussac ?
Les archivistes québécois ont fait appel au logiciel Transkribus, dédié à la recon- naissance de texte, à l’analyse d’images et à la reconnaissance de structure de documents historiques. "Une fois le document d’archives numérisé en haute résolution et téléversé dans Transkribus, le logiciel crée des modèles linguistiques à l’aide d’algorithmes d’apprentissage", explique Jean-Olivier Dicaire-Leduc, étudiant au sein de l’UdeM. "En balayant les écritures, ils repèrent les mots et les tournures de phrases récurrents et parviennent à en déchiffrer le contenu".
Légende : Interface de transcription sur la plateforme Transkribus. (Transkribus)
L’apport de l’IA a un premier résultat concret : améliorer l’accès au contenu des documents grâce à la transcription aux fins d’indexation dans les instruments de recherche archivistiques, en particulier le catalogue web (AtoM) des archives de l’Université de Montréal. Au-delà, il s’agit pour Jean-Olivier Dicaire-Leduc de "faciliter l’accès à une partie de l’histoire de la Nouvelle-France et, possiblement, à la création d’instruments de recherche et d’outils de diffusion des archives accessibles à tous".
Lire aussi : Comment la BNL a développé son chatbot basé sur ChatGPT
Typage de documents et extraction de métadonnées
Du côté de l’archivage des documents d’entreprise, l’IA est également mise à contribution pour améliorer les performances des systèmes d’archivage électronique (SAE). Y compris l’IA générative "qui apporte de nouvelles possibilités, notamment autour de la préparation et du préversement des documents", explique Noureddine Lamriri VP Product Marketing chez Everteam. "Si nous n’avons pas encore exploré toutes les possibilités de cette technologie, nous savons que pour le typage des documents et l’extraction des métadonnées, l’IA peut être d’une grande utilité".
Elle est par exemple en mesure de cibler précisément des informations qui sont difficiles d’accès et améliore la fiabilité des métadonnées. "La fiabilité étant un élément clé pour verser un document dans un SAE", poursuit-il. Selon lui, le traitement des vracs numériques est un laboratoire d’expression pour l’IA : "cet espace où l’information non structurée a besoin d’être qualifiée est celui dans lequel l’intelligence artificielle va pouvoir s’épanouir". Il tempère néanmoins : "bien sûr, cela demande une expertise dans les entreprises et du temps pour obtenir des résultats".
Une menace pour les archivistes ?
Qu’ils évoluent dans le domaine patrimonial ou gèrent des documents d’entreprise, les archivistes doivent-ils craindre pour leur métier ? "Cette question est légitime, mais une intelligence artificielle ne peut pas fonctionner seule", rappelait Bruno Ricard dans Archimag. "Elle a besoin d’un humain pour apprendre à déchiffrer correctement un document. Les archivistes sont paléographes et capables de lire le latin médiéval et l’ancien français, et ils comprennent des termes qui n’existent plus. Cette expertise académique ne pourra jamais être remplacée par l’IA".