CET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°380
Au sommaire :
- Dossier : IA et patrimoine : les professionnels témoignent
- Université de Montréal : l'IA pour déchiffrer des documents manuscrits
- ChamDoc : l'IA pour traduire une langue en voie de disparition
- Au musée de l'Armée, l'IA valorise les archives de la Libération
- L'IA en mode majeur à la Philharmonie de Paris
- SNCF : un chatbot embarque les visiteurs sur les rails du patrimoine
- Ina : l’IA au service de la découverte du patrimoine audiovisuel français
- Quel avenir pour le patrimoine culturel à l'ère de l'intelligence artificielle ?
Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !
Qu’il s’agisse de la parité hommes-femmes à l’antenne ou, par exemple, de la récurrence du terme « métavers », ce qui s’est passé ou dit à la télévision et à la radio n’aura plus de secret pour personne grâce à la toute nouvelle plateforme lancée en octobre 2024 par l’Institut national de l’audiovisuel (Ina) : Data.Ina.fr.
« L’idée d’utiliser l’intelligence artificielle (IA), non seulement pour rendre nos archives plus facilement “découvrables”, mais aussi pour produire des analyses à grande échelle et faire ressortir des tendances grâce à la datavisualisation, a germé il y a plus de trois ans », explique Xavier Lemarchand, responsable de l’intégration de l’IA à l’Ina, qui se trouve alors, avec ses 27 millions d’heures d’archives, confrontée à un data lake d’ampleur et à un enjeu de découvrabilité. « Mais il fallait avant tout évaluer leur fiabilité et gagner en maturité industrielle ».
Un outil d’IA développé en interne
Le développement de Data.Ina.fr s’est appuyé sur un large éventail de compétences : celles de documentalistes, de data scientists, de techniciens et de datajournalistes, mais aussi sur une collaboration avec l’agence WeDoData pour la création du site. Camille Pettineo, rédactrice et responsable éditoriale du site, souligne : « nous avons dû inventer nos propres méthodologies et les remettre en question sans cesse, ce qui demande beaucoup d’humilité ».
Trois principaux outils d’IA ont été mobilisés pour le traitement des archives audiovisuelles : Whisper, pour la transcription automatique de la parole, TextRazor, pour l’extraction d’entités nommées et InaSpeechSegmenter, pour segmenter les flux audio et identifier le genre des intervenants. Celui-ci a été développé en interne, car aucun autre éditeur n’était spécialisé sur cette problématique.
Lire aussi : Dossier - bibliothécaires, documentalistes et archivistes : où en est la convergence ?
Un contrôle humain pour des données fiables
Cette synergie de compétences et de technologies a ainsi donné naissance il y a quelques semaines à une plateforme inédite qui permet désormais d’explorer le patrimoine audiovisuel français à l’aide de datavisualisations. Destinée aux citoyens, aux chercheurs et aux journalistes, elle donne du sens à 700 000 heures d’archives de journaux télévisés du soir, de matinales et de contenus de chaînes d’information en continu produits entre 2019 et 2024, et offre un nouveau regard sur l’évolution du paysage médiatique. La plateforme évoluera tous les six mois avec des données plus anciennes et d’autres mises à jour.
Le principal défi de Data.ina.fr est d’assurer la fiabilité des données. Pour évaluer la performance de l’IA, des contrôles humains et une méthode de « vérités terrain » ont été mis en place. Le taux de confiance de 83 % est prometteur et l’IA devrait continuer à s’améliorer rapidement, en particulier dans la reconnaissance des noms propres. « Ces erreurs rappellent que l’IA est un outil à employer de manière prudente et responsable », insiste Xavier Lemarchand. Dans une démarche de transparence, des « points d’attention » signalent d’ailleurs aux utilisateurs les erreurs potentielles de l’IA et encouragent une utilisation critique de l’outil.
Lire aussi : Comment l’Ina apporte son expertise à la Maison des Archives du Congo
Le témoignage des professionnels
Ce projet ambitieux a permis aux experts de l’Ina d’explorer les limites et les possibilités de l’IA. Camille Pettineo souligne : « l’IA nous offre une nouvelle dimension d’analyse et donc une nouvelle opportunité de valorisation de nos archives, que ce soit pour défricher la médiatisation d’un sujet précis, comme sur data.ina.fr, ou pour produire des enquêtes, comme sur La Revue des médias ».
De son côté, Xavier Lemarchand tient à souligner la richesse de la collaboration interdisciplinaire mise en œuvre dans ce projet : « nous avons pu dépasser les frontières habituelles entre les métiers tout en restant conscients des limites de la technologie. L’IA est puissante, mais elle doit être guidée par une expertise humaine et un discernement critique ».
Lire aussi : Comparatif : datavisualisation, les outils évoluent