Article réservé aux abonnés Archimag.com

Université de Montréal : l'IA pour déchiffrer des documents manuscrits

  • fonds-louis-francois-georges-baby-universite-montreal.jpg

    fonds-louis-francois-georges-baby-universite-montreal
    Un document issu du fonds Louis-François-Georges-Baby de l’Université de Montréal. (Amélie Philibert/Université de Montréal)
  • L’Université de Montréal recourt à l’IA afin de déchiffrer l’écriture souvent illisible de documents manuscrits du XVIIe siècle.

    archimag_380_patrimoine_intelligence_artificielle_4.jpgenlightenedCET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°380

    Au sommaire : 

    Dossier : IA et patrimoine : les professionnels témoignent
    Université de Montréal : l'IA pour déchiffrer des documents manuscrits
    ChamDoc : l'IA pour traduire une langue en voie de disparition
    Au musée de l'Armée, l'IA valorise les archives de la Libération
    L'IA en mode majeur à la Philharmonie de Paris
    SNCF : un chatbot embarque les visiteurs sur les rails du patrimoine
    Ina : l’IA au service de la découverte du patrimoine audiovisuel français
    Quel avenir pour le patrimoine culturel à l'ère de l'intelligence artificielle ?

    mail Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !


    C’est un corpus irremplaçable pour documenter l’histoire du Québec. Le fonds Louis-François-Georges-Baby est composé de nombreux documents manuscrits du XVIIe siècle relatifs aux populations autochtones de la Belle Province. Mais il y a un problème : l’écriture manuscrite y est souvent illisible, rendant le travail des historiens particulièrement ardu.

    Hébergé par la Division des archives et de la gestion de l’information (DAGI) de l’Université de Montréal, ce patrimoine a heureusement pu être décrypté grâce à Transkribus, une plateforme européenne de reconnaissance de texte capable de fournir des transcriptions facilement exploitables par les chercheurs qui utilisent les archives de la DAGI.

    "L’un des apports majeurs de Transkribus a été l’utilisation de balises (tags) afin d’identifier plusieurs éléments clés, comme les termes inclus dans la révision critique, ainsi que les entités nommées (personnes et lieux) et les dates importantes", explique Jean-Olivier Dicaire-Leduc, diplômé de la maîtrise en histoire à l’Université de Montréal. "L’exportation de ces balises a grandement favorisé la compréhension des documents et a rendu beaucoup plus simple la réalisation de la révision critique."

    Lire aussi : Dossier - bibliothécaires, documentalistes et archivistes : où en est la convergence ?

    Choisir un modèle linguistique

    Le chantier de déchiffrement de l’Université de Montréal s’appuie sur plusieurs étapes, à commencer par la numérisation de l’archive. Vient ensuite un travail de mise en page : "il importe d’indiquer au logiciel les lignes du document, ainsi que le sens de lecture. Pour ce faire, Transkribus dispose d’une option de mise en page automatique qui fonctionne plutôt bien. Une vérification manuelle s’avère souvent utile pour s’assurer de la conformité des lignes établies par Transkribus".

    Lorsque la mise en page est terminée, la phase de transcription à proprement parler peut commencer, avec le choix d’un modèle linguistique parmi les modèles publics développés par Transkribus et les chercheurs qui contribuent à son développement.

    À ce niveau, la vérification humaine reste souvent indispensable afin de corriger les erreurs éventuelles du logiciel. Selon les utilisateurs de Transkribus, le taux d’erreur oscille entre 5 et 10 % pour les bons modèles linguistiques.

    Une révision critique des archives

    Après avoir fait parler ces archives, l’Université de Montréal est parvenue à produire des transcriptions facilement exploitables par les historiens. "La révision critique vise principalement à contextualiser des termes ne correspondant plus aux sensibilités actuelles, notamment les termes “sauvage” et “indien”, sans toutefois effacer ces termes des descriptions archivistiques", précise Jean-Olivier Dicaire-Leduc.

    Mise à disposition du public académique, cette révision critique fait l’objet de présentations au sein des institutions universitaires. Mieux, elle est également utilisée à des fins de vulgarisation en direction d’un plus large public souhaitant s’informer sur l’histoire du Québec.

    Lire aussi : Patrimoine et innovation : faut-il repenser les musées et les lieux de culture ?

    Le témoignage du professionnel

    Pour Jean-Olivier Dicaire-Leduc, "l’intelligence artificielle amène de nouvelles possibilités particulièrement intéressantes pour la discipline historique" : accès facilité à des archives parfois délaissées en raison de la difficulté de leur déchiffrement, démocratisation de la recherche historique…

    "Un outil comme Transkribus permet aux citoyens et aux passionnés d’histoire de reconnecter avec certaines archives", poursuit-il. "Sans que cela ne fasse d’eux des historiens, il n’en demeure pas moins que ces outils leur redonnent, en quelque sorte, un accès à leur passé. Néanmoins, de manière générale, l’IA ne constitue pas à mes yeux une solution miracle".

    À lire sur Archimag
    Les podcasts d'Archimag
    La mise à disposition des décisions de justice en Open Data a vu le jour grâce à la loi pour une République numérique votée en 2016. Les articles 20 et 21 prévoient la mise en open data des quatre millions de décisions de justice produites chaque année par les tribunaux français. Camille Girard-Chanudet est chercheuse en sociologie au sein du Centre d’étude des mouvements sociaux. En 2023, elle a soutenu une thèse devant l’École des hautes études en sciences sociales (EHESS) : "La justice algorithmique en chantier, sociologie du travail et des infrastructures de l’intelligence artificielle". Dans ce cadre elle a rencontré les équipes de la Cour de cassation qui procèdent à l’anonymisation des décisions de justice.

    Serda Formations Archives 2025

    Indispensable

    Bannière BDD.gif