L'Institut national de l'audiovisuel (Ina) fait appel à l'intelligence artificielle pour exploiter et valoriser son data lake ! Depuis le 2 octobre dernier, l'Ina a lancé sa nouvelle plateforme, Data.ina.fr. Cette mine d’or numérique ouvre les portes de 27 millions d’heures d’archives audiovisuelles françaises captées à partir de 184 chaînes, rendant accessible une immense quantité de données sous la forme de graphiques et de cartes interactives pour décrypter les tendances médiatiques majeures.
Un nouvel éclairage grâce à la datavisualisation
L'ensemble des contenus de Data.ina.fr est organisé en rubriques et thématiques. Grâce à la datavisualisation, l’interface a été pensée pour rendre l’expérience de recherche intuitive, facilitant ainsi l'exploration des archives et l’analyse médiatique à travers des cartes et graphiques interactifs. Par exemple, la plateforme permet de connaître la couverture médiatique d’un terme ou le temps de parole accordé entre les femmes et les hommes selon les chaînes.
Lire aussi : "L’intelligence artificielle a sa place dans le monde des archives"
Une combinaison d'outils d'IA
Data.ina.fr est une nouveauté rendue possible grâce à la gestion documentaire du dépôt légal de l'audiovisuel français, conjuguée à l’IA. Avec l’appui des data-scientists de l'institut, ces heures de contenus TV et radio ont été stockées, archivées puis traitées sous un contrôle permanent des résultats pour garantir un maximum de transparence.
L’Ina a utilisé l’outil de machine learning Whisper (OpenAI) pour sa transcription, et TextRazor, un logiciel traitement automatique du langage naturel (TAL), pour l’extraction d’entités nommées. Quant à la classification sonore de ses données, ses équipes de recherche ont mis au point leur propre logiciel open source, inaSpeechSegmenter, basé sur un modèle à réseaux de neurones à convolution (CNN)