Temps de lecture : 4 minutes
Découvrez Le Brief de la Démat', la newsletter thématique d'Archimag dédiée au projets de dématérialisation !
La reconnaissance automatique de la parole, qu'est ce que c'est ?
C’est au début des années 1950 que les premières expériences de reconnaissance automatique de la parole virent le jour. Il faudra attendre encore une vingtaine d’années pour aboutir à des résultats plus convaincants avec la commercialisation des premières solutions. Aujourd’hui, cette technologie est en passe de devenir mature et Microsoft revendique un taux d’erreur d’environ 5 %.
La reconnaissance automatique de la parole (RAP) fait une promesse : transformer un contenu audio en un texte écrit. Tout un chacun peut déjà en faire l’expérience avec des applications embarquées sur les smartphones qui permettent de dicter des SMS. Et Philips vient d’annoncer une solution permettant de dicter un texte directement dans les applications de bureau les plus répandues telles que Microsoft Word ou Outlook.
Lire aussi : Trois applications gratuites pour retranscrire automatiquement vos fichiers audio
Le speech-to-text, comment ça marche ?
Sous le capot, cette technologie fait appel à de puissantes fonctionnalités et repose sur la succession de plusieurs étapes :
- Déterminer quels phonèmes sont prononcés à l’aide d’un modèle acoustique (à titre d’exemple, la langue française comprend 36 phonèmes, 16 voyelles et 20 consonnes) ;
- Déterminer quels mots sont prononcés à l’aide d’un dictionnaire phonétique ;
- Retranscrire la séquence de mots (phrase) ayant le plus de chances d’avoir été prononcée à l’aide d’un modèle de langage.
« Aujourd’hui, avec les progrès permis par l’apprentissage profond (une technique d’apprentissage automatique), de très nombreux systèmes proposent d’effectuer une transcription automatique de la parole de bout en bout (“end to end”) », explique la Cnil. L’apprentissage automatique permet notamment au logiciel d’apprendre à partir de données afin d’améliorer ses performances.
Une ultime opération est enfin lancée par la reconnaissance automatique de la parole : désambiguïser le premier résultat obtenu pour déjouer les aléas d’une prononciation laborieuse, par exemple.
Lire aussi : Reconnaissance automatique de la parole : tout commence par la voix
Les avantages et les défis de la reconnaissance automatique de la parole
En 2008, la Bibliothèque nationale de France avait fait appel à de la reconnaissance automatique de parole à l’occasion d’un débat réunissant l’historien Michel Winock et les philosophes Luc Ferry et Edgar Morin. Leurs propos étaient retranscrits en quasi temps réel sur un grand écran placé derrière eux.
Assez bluffantes, les performances de la solution déployée étaient cependant altérées par des difficultés rencontrées avec les noms propres qui, semble-t-il, n’avaient pas été intégrés dans le dictionnaire.
Sans surprise, les performances du speech-to-text dépendent de plusieurs facteurs : qualité de la diction du locuteur, bruits parasites, conversation à proximité ou à distance du micro, vitesse de l’expression orale, complexité du vocabulaire employé… Les taux d’erreur peuvent varier de 5 % pour des textes lus par une seule personne à près de 40 % pour une conversation téléphonique.
Ajoutons que la présence de noms propres aux origines multiples est un défi pour les solutions de RAP. Imaginons un congrès réunissant trois lauréats du Prix Nobel de chimie : Emmanuelle Charpentier (Prix Nobel 2020), Venkatraman Ramakrishnan (2009) et Hideki Shirakawa (2000)… Si ces patronymes n’ont pas été préalablement insérés dans le dictionnaire du logiciel, il y a de fortes chances d’assister à une transcription folklorique !
Lire aussi : Les promesses des technologies vocales
La recherche continue d'avancer !
La recherche autour de la reconnaissance automatique de la parole ne s’arrête jamais. Un projet franco-japonais baptisé VoicePersonae a pour ambition de servir de « hub » à de nombreux sujets liés à l’identité vocale : synthèse de la parole, reconnaissance du locuteur, anonymisation de la parole…
Objectif : supprimer l’identité d’un locuteur d’un message vocal tout en préservant a minima son contenu linguistique, mais aussi ses aspects naturels, son émotivité, sa « couleur' »… De quoi rester sans voix.