RETROUVEZ CET ARTICLE ET PLUS ENCORE DANS NOTRE GUIDE PRATIQUE : IA GÉNÉRATIVE : L'UTILISER DANS SES PROJETS PROFESSIONNELS
Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation.
Les registres des actes notariés figurent parmi les sources historiques les plus consultées aux Archives nationales. On y trouve des transactions immobilières, des testaments, ainsi que des contrats de mariage archivés au sein du département du Minutier central des notaires de Paris. Problème : ces documents sont difficiles à exploiter en raison de l’impossibilité de réaliser des recherches en plein texte.
Lancé en 2018, le projet Lectaurep (Lecture automatique de répertoires) a pour objectif d’offrir un meilleur accès à ces ressources grâce à l’intelligence artificielle. "L’ambition de ce projet est d’explorer les moyens d’appliquer la transcription automatique des écritures manuscrites (HTR) à ces répertoires, au début avec le logiciel Transkribus, puis avec Kraken et eScriptorium", explique Alix Chagué, ingénieure de recherche pour le projet Lectaurep et actuellement doctorante en humanités numériques à l’Université de Montréal, à l’Inria et à l’École Pratique des Hautes Études. "Pour les Archives nationales, cela ouvre la possibilité de continuer à développer des compétences en interne autour cette technologie émergente et d’envisager à terme un nouveau mode de mise à disposition du fond des répertoires".
À la manœuvre, plusieurs institutions ont collaboré au projet : l’Inria, l’École Pratique des Hautes Études, les Archives nationales et le ministère de la Culture. Dès son lancement, l’intelligence artificielle a été mobilisée afin d’assurer la transcription automatique des manuscrits. "Sans l’automatisation de la transcription, il est quasiment impensable d’imaginer mettre en ligne les données textuelles contenues dans les plusieurs milliers de pages des répertoires", poursuit Alix Chagué.
Lire aussi : Bruno Ricard : "L'expertise des archivistes ne sera jamais remplacée par l'intelligence artificielle"
Données d’entraînement
Un temps considérable a été consacré à la production de données d’entraînement des transcriptions manuelles. Il fallait en effet entraîner des modèles de transcription et des modèles chargés de la détection de la mise en page. Un travail rendu indispensable en raison de la grande variété de mains (différentes écritures) présentes dans les pages des répertoires.
Légende : Une page du répertoire du notaire Riant traitée dans l’application eScriptorium. (DR)
Autre écueil à déjouer : la complexité de la mise en page (sous forme de tableau). Pour Alix Chagué, "le projet Lectaurep a contribué à faire progresser la transcription automatique des écritures manuscrites, puisque nous avons participé au développement de l’application open source eScriptorium et produit de la documentation et des formations sur l’HTR utiles à d’autres projets similaires. Si le projet avait lieu aujourd’hui, on aurait probablement besoin de moins de temps avant d’obtenir un modèle de transcription efficace, car l’HTR a fait beaucoup de progrès en quelques années et il existe maintenant des modèles de transcription génériques qui nécessitent moins de données".
Lire aussi : Contre un vrac numérique, l’IA n’est pas automatique
Jeux de données réutilisables
Tout au long du projet Lectaurep, des jeux de données d’entraînement pour l’HTR ont été produits par les équipes impliquées dans le programme. Bonne nouvelle : ils sont mis à disposition et peuvent être réutilisés, par exemple pour la création de modèles de transcription génériques.
En revanche, "la transcription en masse des répertoires et son intégration dans les interfaces de consultation des Archives nationales n’ont pas encore été mises en œuvre", précise Alix Chagué. "Notamment parce qu’elle suppose une réflexion stratégique de la part des Archives nationales sur le système de gestion des données et les interfaces de consultation". Une réflexion qui dépasse très largement le seul périmètre du projet Lectaurep.