Découvrez Le Push du Veilleur, la newsletter thématique gratuite d'Archimag dédiée aux professionnels de la veille et de la documentation !
¿Habla español ? Kan du norsk ? Siz o'zbekcha gapirasizmi ? Si vous ne parlez ni espagnol, ni norvégien, ni ouzbek, Lingua Libre est faite pour vous !
Cette médiathèque linguistique participative développée par Wikimédia France a une ambition : construire un corpus audiovisuel multilingue et collaboratif sous licence libre. Et mettre à la portée de tous les internautes la fabuleuse diversité linguistique de notre Terre.
> Lire aussi : Zemmour, Elisabeth II, Ronaldo, Messi, Belmondo : les 5 articles les plus consultés sur Wikipédia en 2021
Comment fonctionne cette médiathèque linguistique participative ?
Comme tous les projets portés par l’écosystème Wikimédia, Lingua Libre fait appel aux bonnes volontés pour contribuer à l’enrichissement de son corpus. Tout internaute, en fonction de ses compétences linguistiques, peut enregistrer une séquence courte (un mot, une locution, une phrase) afin d’enrichir le projet. Il suffit pour cela d’ouvrir un compte et d'enregistrer une phrase à partir d’un téléphone ou d’un ordinateur.
Une fois l’enregistrement effectué, Lingua Libre - également appelée LiLi par les contributeurs - propose aux internautes d’y accéder en ligne sans inscription préalable.
Ces enregistrements sont également consultables sur Wikimedia Commons, l’autre médiathèque en ligne d'images, de sons, d'autres médias audiovisuels de Wikimédia sous licence libre. Ils servent aussi à illustrer le Wiktionnaire, un projet lexicographique de la Wikimedia Foundation dont l’objectif est de définir tous les mots dans toutes les langues.
> Lire aussi : Une nouvelle interface pour Wikipédia
Le constat de Lingua Libre : plus de 50 % des sites web sont en anglais
Le projet Lingua Libre est né d’un constat : “Si le web est en théorie ouvert à tout le monde, son contenu est loin de représenter toutes les langues de manière proportionnelle. Plus de 50 % des sites web sont en anglais ; seules 301 des plus de 7 000 langues du monde possèdent une encyclopédie libre, au contenu inférieur en qualité et en quantité à celui des langues plus dotées comme Wikipédia en anglais”, expliquent les promoteurs de cette médiathèque.
A ce manque de diversité s’ajoute le manque d’oralité causé par l’utilisation des caractères Unicode (le codage informatique des caractères) et la standardisation orthographique.
Résultat : “Ces manques de diversité et d’oralité limitent la capacité des internautes à communiquer. Parmi les langues régionales minoritaires orales ou signées, ils menacent en particulier celles peu dotées dont beaucoup se trouvent à l’heure actuelle en voie de disparition et pour qui l’insertion sur le web constitue un enjeu et une opportunité majeurs”.
> Lire aussi : Patrimoine et innovation : faut-il repenser les musées et les lieux de culture ?
L’enregistrement audio est ce qui se rapproche le plus d’une langue orale
Quatre ans après son lancement, Lingua Libre peut s’appuyer sur un réseau de plus de 700 contributeurs à travers le monde. Parmi eux, Lyokoï, cofondateur du projet :
“Ma contribution à la diversité linguistique chez Wikimédia France prend son origine dans mon travail sur les langues de France que j’avais déjà renseigné sur le Wiktionnaire. J’avais en effet commencé à compléter les annexes qui dressent la liste des langues de France et lancer les articles sur Wikipédia pour les langues qui n’en avaient pas".
A ses yeux, le format audio de Lingua Libre présente de nombreux avantages :
“L’enregistrement audio est ce qui se rapproche le plus d’une langue orale, davantage que les procédés grammaticaux qui figurent dans le Wiktionnaire en tout cas. Actuellement, sur Lingua Libre, on a des bases de données de sons qui sont comme des photographies de la langue en instantané. On ne peut pas faire mieux pour cerner une langue dans son intégralité. Un enregistrement audio seul peut rendre compte de cette diversité linguistique en termes de prononciation. De ce fait, avec l’oralité, on peut décrire les évolutions de la langue sur ce dernier siècle, les premiers enregistrements audio datant de la fin du XIXe et du début du XXe. »
> Lire aussi : La Société du Grand Paris lance sa bibliothèque participative
Quechua, mapuche, guarani
Autre contributrice bénévole, Emma Vadillo est étudiante à La Sorbonne en linguistique et à l’Institut national des langues et civilisations d’orient (Inalco). D’origine péruvienne, ses grands-parents parlent le quechua, langue parlée à l’ère de l’empire inca :
“Il y a certaines traditions de ce côté-là de ma famille que j’aimerais bien conserver et c’est en partie ce qui m’a poussée à apprendre le quechua à mon tour. En fait, je m’intéresse à toutes les langues des Amériques comme le mapuche, langue amérindienne parlée au Chili et en Argentine, et le guarani, essentiellement parlé au Paraguay”.
Pour Emma Vadillo, contribuer à Lingua Libre relève également de l’engagement politique “car ces langues sont très défavorisées par rapport aux ressources investies dans l’éducation, les médias et l’information en général”.
> Lire aussi : 14 000 documents archivés dans 1 000 langues différentes à porter autour du cou
Un hackathon pour améliorer l’expérience utilisateur
Au mois de juillet dernier, de nombreux contributeurs se sont retrouvés à Lyon à l’occasion d’un hackathon pour apporter des améliorations à Lingua Libre. Il s’agissait notamment de perfectionner le module Record Wizard qui permet l’enregistrement, la catégorisation et la publication sur Wikimedia Commons d’enregistrements audio courts à partir d’un ordinateur ou d’un smartphone.
“Ces deux jours de conception collective et de développement ont permis d’apporter plusieurs changements à Lingua Libre, tels que l’amélioration de la documentation opérationnelle”, explique l’un des participants ; “ce hackathon était également l’occasion d’améliorer le code de Lingua Libre Bot, le programme s’occupant d’ajouter les enregistrements sur les Wiktionnaire. Un nouveau statut d’utilisateur a été mis en place avec l’accord de la communauté, celui d’administrateur de traduction”.
Alors que Lingua Libre n’a pas encore cinq ans, la question de son évolution est déjà posée. Pour Pamputt, administrateur de Lingua Libre, “plusieurs possibilités s’offrent à nous. Une des applications possibles serait qu’on se serve des enregistrements pour développer un autre site ou une application pour l’apprentissage des langues. Une autre, d’en faire un « Wikipédia oral », c’est-à-dire de pouvoir s’enregistrer en lisant des articles, de préférence en langues minoritaires ou peu dotées car souvent elles ne s’écrivent pas".
Là aussi, l’avenir se fera de manière collaborative.
> Lire aussi : Capturator : les langues en ligne sur tout support
Lingua Libre en chiffres
La version alpha de Lingua Libre a été lancée en août 2018. Moins d’un an plus tard, la médiathèque linguistique collaborative atteignait un total de 100 000 enregistrements audio dans 46 langues, grâce à 128 locuteurs différents.
Le projet a dépassé les 200 000 enregistrements (82 langues, 268 locuteurs) en janvier 2020, puis les 500 000 enregistrements au mois de juin 2021.
LiLi comptait 676 603 enregistrements réalisés par 736 locuteurs dans 147 langues au mois de février 2022.