Article réservé aux abonnés Archimag.com

Ina : l’IA au service de la découverte du patrimoine audiovisuel français

  • ina-ia-service-decouverte-patrimoine-audiovisuel-francais.png

    La valorisation des archives audiovisuelles de l'INA permet notamment de produire des enquêtes pour La Revue des Médias de l'INA (Camille Pettineo, 2023).
  • En octobre 2024, l’Ina lançait Data.Ina.fr, une plateforme innovante qui exploite l’intelligence artificielle et la datavisualisation pour explorer 700 000 heures d’archives de programmes audiovisuels, offrant ainsi un regard inédit sur l’évolution des médias français.

    archimag_380_patrimoine_intelligence_artificielle_1.jpgCET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°380

    Au sommaire : 

    Dossier : IA et patrimoine : les professionnels témoignent
    Université de Montréal : l'IA pour déchiffrer des documents manuscrits
    ChamDoc : l'IA pour traduire une langue en voie de disparition
    Au musée de l'Armée, l'IA valorise les archives de la Libération
    L'IA en mode majeur à la Philharmonie de Paris
    SNCF : un chatbot embarque les visiteurs sur les rails du patrimoine
    Ina : l’IA au service de la découverte du patrimoine audiovisuel français
    Quel avenir pour le patrimoine culturel à l'ère de l'intelligence artificielle ?

    mail Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !


    Qu’il s’agisse de la parité hommes-femmes à l’antenne ou, par exemple, de la récurrence du terme « métavers », ce qui s’est passé ou dit à la télévision et à la radio n’aura plus de secret pour personne grâce à la toute nouvelle plateforme lancée en octobre 2024 par l’Institut national de l’audiovisuel (Ina) : Data.Ina.fr.

    « L’idée d’utiliser l’intelligence artificielle (IA), non seulement pour rendre nos archives plus facilement “découvrables”, mais aussi pour produire des analyses à grande échelle et faire ressortir des tendances grâce à la datavisualisation, a germé il y a plus de trois ans », explique Xavier Lemarchand, responsable de l’intégration de l’IA à l’Ina, qui se trouve alors, avec ses 27 millions d’heures d’archives, confrontée à un data lake d’ampleur et à un enjeu de découvrabilité. « Mais il fallait avant tout évaluer leur fiabilité et gagner en maturité industrielle ».

    Un outil d’IA développé en interne

    Le développement de Data.Ina.fr s’est appuyé sur un large éventail de compétences : celles de documentalistes, de data scientists, de techniciens et de datajournalistes, mais aussi sur une collaboration avec l’agence WeDoData pour la création du site. Camille Pettineo, rédactrice et responsable éditoriale du site, souligne : « nous avons dû inventer nos propres méthodologies et les remettre en question sans cesse, ce qui demande beaucoup d’humilité ».

    Trois principaux outils d’IA ont été mobilisés pour le traitement des archives audiovisuelles : Whisper, pour la transcription automatique de la parole, TextRazor, pour l’extraction d’entités nommées et InaSpeechSegmenter, pour segmenter les flux audio et identifier le genre des intervenants. Celui-ci a été développé en interne, car aucun autre éditeur n’était spécialisé sur cette problématique.

    Lire aussi : Dossier - bibliothécaires, documentalistes et archivistes : où en est la convergence ?

    Un contrôle humain pour des données fiables

    Cette synergie de compétences et de technologies a ainsi donné naissance il y a quelques semaines à une plateforme inédite qui permet désormais d’explorer le patrimoine audiovisuel français à l’aide de datavisualisations. Destinée aux citoyens, aux chercheurs et aux journalistes, elle donne du sens à 700 000 heures d’archives de journaux télévisés du soir, de matinales et de contenus de chaînes d’information en continu produits entre 2019 et 2024, et offre un nouveau regard sur l’évolution du paysage médiatique. La plateforme évoluera tous les six mois avec des données plus anciennes et d’autres mises à jour.

    Le principal défi de Data.ina.fr est d’assurer la fiabilité des données. Pour évaluer la performance de l’IA, des contrôles humains et une méthode de « vérités terrain » ont été mis en place. Le taux de confiance de 83 % est prometteur et l’IA devrait continuer à s’améliorer rapidement, en particulier dans la reconnaissance des noms propres. « Ces erreurs rappellent que l’IA est un outil à employer de manière prudente et responsable », insiste Xavier Lemarchand. Dans une démarche de transparence, des « points d’attention » signalent d’ailleurs aux utilisateurs les erreurs potentielles de l’IA et encouragent une utilisation critique de l’outil.

    Lire aussi : Comment l’Ina apporte son expertise à la Maison des Archives du Congo

    Le témoignage des professionnels

    ina-ia-service-decouverte-patrimoine-audiovisuel-francais_camille_pettineo.pngCe projet ambitieux a permis aux experts de l’Ina d’explorer les limites et les possibilités de l’IA. Camille Pettineo souligne : « l’IA nous offre une nouvelle dimension d’analyse et donc une nouvelle opportunité de valorisation de nos archives, que ce soit pour défricher la médiatisation d’un sujet précis, comme sur data.ina.fr, ou pour produire des enquêtes, comme sur La Revue des médias ».ina-ia-service-decouverte-patrimoine-audiovisuel-francais_ina_xavier_lemarchand.jpg

    De son côté, Xavier Lemarchand tient à souligner la richesse de la collaboration interdisciplinaire mise en œuvre dans ce projet : « nous avons pu dépasser les frontières habituelles entre les métiers tout en restant conscients des limites de la technologie. L’IA est puissante, mais elle doit être guidée par une expertise humaine et un discernement critique ».

    Lire aussi : Comparatif : datavisualisation, les outils évoluent

    À lire sur Archimag
    Les podcasts d'Archimag
    Gilles Pécout a été nommé à la présidence de la Bibliothèque nationale de France au printemps dernier. Au micro de Bruno Texier, pour les podcasts d'Archimag, le nouveau président présente les grandes lignes de son programme à la tête de l'institution, notamment l'apport de l'IA dans le développement de nouveaux services.
    Publicité

    Serda Formations Archives 2025

    Indispensable

    Bannière BDD.gif