Article réservé aux abonnés Archimag.com

ChamDoc : l'IA pour traduire une langue en voie de disparition 

  • chamdoc-anne-valerie-schweyer.jpg

    chamdoc-anne-valerie-schweyer
    Anne-Valérie Schweyer, directrice de recherche au CNRS, historienne et épigraphiste. (Joseph Gobin)
  • Porté par une équipe internationale dirigée par l’historienne, épigraphiste et directrice de recherche au CNRS Anne-Valérie Schweyer, le programme ChamDoc utilise l’intelligence artificielle pour redonner vie à la langue cham.

    archimag_380_patrimoine_intelligence_artificielle_4.jpgenlightenedCET ARTICLE A INITIALEMENT ÉTÉ PUBLIÉ DANS ARCHIMAG N°380

    Au sommaire : 

    Dossier : IA et patrimoine : les professionnels témoignent
    Université de Montréal : l'IA pour déchiffrer des documents manuscrits
    ChamDoc : l'IA pour traduire une langue en voie de disparition
    Au musée de l'Armée, l'IA valorise les archives de la Libération
    L'IA en mode majeur à la Philharmonie de Paris
    SNCF : un chatbot embarque les visiteurs sur les rails du patrimoine
    Ina : l’IA au service de la découverte du patrimoine audiovisuel français
    Quel avenir pour le patrimoine culturel à l'ère de l'intelligence artificielle ?

    mail Découvrez L'Archiviste Augmenté, la newsletter thématique gratuite d'Archimag dédiée aux professionnels des archives et du patrimoine !


    C’est au IIe siècle av. J.-C. que sont découvertes les premières preuves d’existence de la communauté des Chams, alors établie dans le centre de l’actuel Vietnam. Influencée par une histoire riche qui s’étend sur une très longue période - jusqu’à la disparition politique du royaume des Chams, au XVIIIe siècle - la langue cham a connu de nombreuses transformations.

    L’évolution est telle qu’une personne sachant lire un texte en cham datant du XIIIe siècle serait totalement perdue face à des manuscrits du XVIII siècle. Les différentes langues - cham ancien, cham moyen et cham moderne - utilisent toujours un alphabet alphasyllabique.

    "Aujourd’hui, plus personne ne sait lire le cham ancien", constate Anne-Valérie Schweyer, directrice de recherche au CNRS, historienne et épigraphiste. "Nous ne sommes plus qu’une poignée d’épigraphistes dans le monde à être encore capables de déchiffrer ces écritures anciennes. Mais que se passera-t-il lorsque nous ne serons plus là ?" 

    Lire aussi : Les Musées Nationaux témoignent : un nouveau portail pour le réseau de bibliothèques

    Pour approfondir et faire perdurer l’histoire de cette communauté, la chercheuse a créé le projet ChamDoc, financé par l’Agence nationale de la recherche (ANR) pour 5 ans, dont l’intelligence artificielle (IA) est la carte maîtresse : estampages, inscriptions, manuscrits…

    L’objectif est de mettre en œuvre un programme permettant non seulement de translittérer ces textes, mais aussi d’en proposer une traduction automatique en cham moderne à destination des descendants de cette communauté. Une façon de les aider à se réapproprier leur histoire.

    etapes-travail-chamdoc.jpg

    Développer une IA multiusage

    Si le projet a été ralenti par les différents confinements liés à la pandémie de Covid, réduisant notamment la captation d’inscriptions sur le terrain, il est marqué par la découverte d’un fonds inédit abrité au Collège de France et par un travail d’équipe à la fois multidisciplinaire et multiculturel.

    Anne-Valérie Schweyer rassemble autour d’elle Jean-Christophe Burie, professeur en informatique au laboratoire Informatique, Image, Interaction3 à l’Université de La Rochelle, Thi-Lan Le, professeure associée au laboratoire Multimedia, Information, Communication and Applications à Institut polytechnique de Hanoi et le linguiste et professeur Marc Brunelle de l’Université d’Ottawa. Dispatchée sur plusieurs fuseaux horaires, cette petite équipe s’est attelée à développer une IA multiusage.

    Tout d’abord, l’IA de ChamDoc permet d’améliorer la qualité des images. "Nous avons appris au système à enlever le bruit, c’est-à-dire les rayures, les brèches ou encore les tâches et autres aspérités des documents", explique Anne-Valérie Schweyer.

    Pour la translittération, l’entraînement de l’IA demande l’intervention constante de la chercheuse. Les spécificités d’un alphabet alphasyllabique rendant la tâche fastidieuse. "Il fallait apprendre au programme à détecter les voyelles et les consonnes qui ne se placent pas de manière horizontale", précise-t-elle. Préservé au Collège de France, le fonds de près de 40 000 pages en cham ancien a largement permis d’alimenter la base de données de l’IA.

    Lire aussi : Gilles Pécout : "l’intelligence artificielle a bien entendu sa place à la BnF"

    "Tout ce travail permet d’écrire l’histoire en connaissance de cause et de comprendre l’évolution de la langue sur près de quinze siècles", conclut Anne-Valérie Schweyer. "L’IA que nous avons développée pourra aussi se transposer à d’autres langues issues d’alphabets alphasyllabiques." Outre l’amélioration de l’outil, la prochaine et dernière étape pour ChamDoc consistera à créer un glossaire disponible en accès libre.

    Le témoignage de la professionnelle

    Pour Anne-Valérie Schweyer, les capacités de l’IA appliquée à la reconnaissance de caractères dépassent ses attentes. "Normalement, l’analyse d’un fonds de près de 40 000 pages représente le travail d’une vie !", confirme la chercheuse. "De plus, même dans mes rêves les plus fous, je n’imaginais pas que nous arriverions à développer de la traduction automatique."

    Selon elle, le travail multidisciplinaire représente un véritable atout pour la recherche et le développement de nouveaux projets.

    À lire sur Archimag
    Les podcasts d'Archimag
    La mise à disposition des décisions de justice en Open Data a vu le jour grâce à la loi pour une République numérique votée en 2016. Les articles 20 et 21 prévoient la mise en open data des quatre millions de décisions de justice produites chaque année par les tribunaux français. Camille Girard-Chanudet est chercheuse en sociologie au sein du Centre d’étude des mouvements sociaux. En 2023, elle a soutenu une thèse devant l’École des hautes études en sciences sociales (EHESS) : "La justice algorithmique en chantier, sociologie du travail et des infrastructures de l’intelligence artificielle". Dans ce cadre elle a rencontré les équipes de la Cour de cassation qui procèdent à l’anonymisation des décisions de justice.

    Serda Formations Archives 2025

    Indispensable

    Bannière BDD.gif