Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !
Au début de l’année 2023, Archimag avait interrogé Françoise Banat-Berger sur les prochains défis technologiques que devront relever les archivistes. La directrice du Service interministériel des Archives de France (Siaf) évoquait alors le rôle de l’intelligence artificielle qui « a évidemment sa place dans le monde des archives, notamment autour de la reconnaissance automatique des caractères manuscrits. »
Même constat pour Emmanuelle Bermès, responsable pédagogique du master « Technologies numériques appliquées à l’histoire », au sein de l’École nationale des chartes : « le cas d’usage le plus prégnant de l’IA porte sur la reconnaissance de l’écriture manuscrite ou HTR (pour handwritten text recognition). L’IA permet d’entraîner un outil à analyser la mise en page d’un document et reconnaître différents types d’écritures, ce qui permet d’extraire du texte semi-structuré à partir de documents anciens numérisés en mode image ».
Lire aussi : "L’intelligence artificielle a sa place dans le monde des archives"
Les métiers du document se mettent donc progressivement en ordre de marche pour s’approprier les promesses de la reconnaissance de l’écriture manuscrite. « Cette technologie permet en effet de transcrire un texte écrit en un texte lisible par l’ordinateur », explique Ariane Pinche, chargée de recherche au sein du laboratoire CIHAM — UMR 5648 du CNRS ; « elle peut être utilisée par exemple pour traiter de grandes collections de documents manuscrits, qu’ils soient médiévaux ou contemporains. Et elle est en mesure de le faire à une vitesse qu’il serait absolument impossible d’atteindre pour un être humain. »
Accélérer la phase de transcription
À la Bibliothèque nationale de France, le projet Gallic(orpor)a s’emploie déjà à traiter les documents anciens de la bibliothèque numérique Gallica, en particulier les premiers manuscrits français jusqu’aux imprimés révolutionnaires.
Ce programme peut ainsi extraire du texte à partir d’une image d’un manuscrit. Résultat : le public pourra effectuer des recherches par mots-clés directement dans les textes plutôt que dans les métadonnées. Et les porteurs du projet voient déjà plus loin.
« Au-delà de la simple extraction de texte en masse, nous améliorerons les jeux de données d’entraînement pour l’apprentissage machine, les outils et les modèles déjà existants pour l’extraction, l’annotation et la diffusion de données richement annotées provenant des collections de la Bibliothèque nationale de France. »
Lire aussi : A 25 ans, Gallica poursuit sa croissance grâce à l'intelligence artificielle
« On peut aussi imaginer d’éditer les œuvres de Tite-Live en ancien français ou des œuvres médiévales comme “Canoniser les 7 sages” (une vaste chronique fictive en vers puis en prose datant du XIIIe siècle). Le HTR permet d’accélérer la phase de transcription. Cela fonctionne plutôt bien : deux mois au lieu de six avec des transcripteurs humains pour avoir une transcription complète normalisée et relue par les humains », se réjouit Ariane Pinche. « Mais cela suppose des outils HTR très performants avec des taux d’erreurs inférieurs à 10 %. Et tout dépend de la qualité de l’écriture. Plus elle est cursive, avec des lettres attachées les unes aux autres, plus le taux d’erreur est élevé. Les documents médiévaux, quant à eux, se caractérisent par une écriture régulière. »
En pointe sur les projets de reconnaissance d’écritures manuscrites, BnF DataLab est également engagé dans le programme HTRomance mené par deux chercheurs (Thibault Clérice et Alix Chagué) qui se sont fixé pour objectifs d’évaluer et d’améliorer les techniques de HTR des manuscrits littéraires en latin et langues romanes, du XIe au XIXe siècle.
HTRomance voit les choses à moyen et long terme : « le projet prévoit la production de données d’entraînement et de modèles de transcription résistants aux changements de mains, voire de langues. Il entend également produire des modèles de langues applicables à des documents en langues anciennes, ou à des états de langue anciens », précisent les chercheurs.
Plateforme de conversion des inventaires
Du côté des archivistes, cela fait désormais plusieurs années que la technologie HTR est passée du mode projet au mode opérationnel. Aux Archives départementales de Côte-d’Or, le programme Lettres en lumières permet de lire automatiquement les registres des États de Bourgogne couvrant la période de 1636 à 1787.
Du côté de Belfort, les archives municipales recherchent des volontaires pour entraîner un logiciel de reconnaissance d’écriture manuscrite. Objectif : rendre accessibles les anciennes délibérations du conseil municipal datant de 1790 à 1946. En Suisse, les Archives du Valais ont également lancé un programme de reconnaissance d’écriture manuscrite pour les recensements du XIXe siècle.
Lire aussi : Comparatif tiers-archivage : choisir un prestataire pour ses archives
Le projet Simara (Saisie d’inventaires manuscrits assistée par reconnaissance automatique) quant à lui vise à développer une plateforme de conversion des inventaires et index manuscrits de la fin du XVIIIe siècle au XXe siècle des archives du Moyen Âge et de l’Ancien Régime.
Il est en mesure de réaliser simultanément deux opérations : la transcription automatique grâce à la reconnaissance d’écritures manuscrites et le placement du texte dans un formulaire dont les champs correspondent à des éléments de balisage des descriptions d’archives. À la clé, un gain de temps appréciable pour les historiens.
Plus le corpus d’entraînement est grand, plus il est coûteux
Est-il possible de calculer ce gain de temps ? Pour Ariane Pinche, « cela dépend de la puissance de calcul de la machine. Un outil comme Kraken est capable de transcrire un manuscrit de 200 folios en une heure, ce qu’un humain ferait en au moins quatre mois de travail. Mais il faut également tenir compte de l’écriture, de la qualité du support, de la qualité de la numérisation, de la complexité de la mise en page. En revanche, le HTR ne peut aujourd’hui pas rivaliser avec un expert qui, lui, est capable de régulariser les majuscules et la ponctuation. La machine ne peut que reproduire ce qu’elle voit sur le manuscrit. Plus on demande de l’interprétation à la machine (par exemple développer les abréviations), plus le corpus d’entraînement doit être grand et plus c’est coûteux, car il faut des serveurs capables de supporter des calculs intenses. »
Véritable chantier en perpétuelle évolution, la reconnaissance d’écritures manuscrites se joue également à l’échelle internationale. HTR-United se présente sous la forme d’un catalogue collaboratif destiné à mutualiser les données d’entraînement HTR.
Lire aussi : Projet Sumum : La numérisation au service de la conservation et de la documentation
On y trouve aussi bien des données issues de Trankribus que de Scriptorium, deux programmes utilisés par les chercheurs de plusieurs pays. HTR-United leur permet de réutiliser des modèles éprouvés en open source et de réduire les coûts liés à leur création. Une initiative bienvenue à l’heure où l’intelligence artificielle bouscule le monde du document.