La Division des archives et de la gestion de l’information de l'Université de Montréal détient de nombreux documents notamment un fonds intitulé Louis-François-Georges-Baby. Ce corpus est composé de documents manuscrits relatifs aux populations autochtones du Québec. Problème : l'écriture manuscrite y est souvent illisible. Un défi pour les historiens alors que le fonds Louis-François-Georges-Baby est en mesure d'apporter des réponses à des questions historiques non résolues : quel sort était réservé aux personnes reconnues coupables de commerce illicite d’alcool en 1667 ? Quelle était l’étendue de la concession territoriale, dans les environs de Sillery, accordée en 1642 par les Augustines de l’Hôtel-Dieu de Québec aux Autochtones de Tadoussac ?
Les équipes de l'Université de Montréal (UdeM) ont décidé de recourir à l'intelligence artificielle pour faire parler ces archives. En particulier le logiciel Transkribus dédié à la reconnaissance de texte, à l'analyse d'images et de reconnaissance de structure de documents historiques. "Une fois le document d’archives numérisé en haute résolution et téléversé dans Transkribus, le logiciel crée des modèles linguistiques à l’aide d’algorithmes d’apprentissage qui, en balayant les écritures, repèrent les mots et les tournures de phrases récurrents et parviennent à en déchiffrer le contenu" explique Jean-Olivier Dicaire-Leduc, étudiant au sein de l'UdeM.
Améliorer les instruments de recherche
Difficulté supplémentaire, la série N du fonds Baby comporte des documents hétérogènes : jugements de cour, contrats de concessions territoriales, observations démographiques; bons de marchandises... Et elle présente la particularité d'avoir été rédigée par différents auteurs, rendant le décodage plus complexe. "Les transcriptions automatiques effectuées par Transkribus comportent certaines erreurs, que j’ai corrigées afin de faciliter la lecture et le balisage" indique Jean-Olivier Dicaire-Leduc.
L'apport de l'IA a un premier résultat concret : améliorer l’accès au contenu des documents grâce à la transcription aux fins d’indexation dans les instruments de recherche archivistiques, en particulier le catalogue Web (AtoM) des archives de l’Université de Montréal. Au-delà il s'agit pour Jean-Olivier Dicaire-Leduc de "faciliter l’accès à une partie de l’histoire de la Nouvelle-France et, possiblement, à la création d’instruments de recherche et d’outils de diffusion des archives accessibles à tous".
Sur le même thème : Quand les archives font appel à l'intelligence artificielle