Il faut compter six heures en moyenne pour retranscrire une heure d'enregistrement audio ! Mais certains outils de retranscription automatique peuvent aujourd'hui se charger de cette activité ingrate, chronophage et objectivement improductive. Gratuits ou payants, ils se sont considérablement améliorés ces dernières années, grâce notamment au deep learning.
En octobre 2016, Orange annonçait que les consultants de son agence de recrutement utilisaient depuis plus d'un an le logiciel de reconnaissance vocale et de retranscription Dragon Professionnal. Les avis sont alors unanimes : les consultants affirment que le temps dédié à la rédaction et à la relecture de leurs comptes-rendus d'entretien de recrutement a été réduit de moitié. Une centaine de licences y sont actuellement en activité.
Nuance Communications est présent sur le créneau des technologies de reconnaissance et de synthèse vocales depuis 2000. En matière de retranscription, l'éditeur a développé les solutions Dragon et NTE : si le premier permet à un seul utilisateur de piloter un ordinateur à la voix, de dicter des textes ou même d'utiliser un enregistreur qui retranscrira ensuite automatiquement le texte dicté, le second est dédié à l'indexation et l'enregistrement de conversations, notamment des centres d'appels (à des fins d'archivage, de vérification du travail d'un employé ou d'analyse des demandes client).
« Les méthodes de deep learning ont considérablement amélioré nos outils, explique Françoise Mohymont, ingénieur chez Nuance ; par exemple, elles vont permettre de préciser au fur et à mesure le profil d'un utilisateur, d'adapter l'outil en quelques secondes à des contraintes (une voix enrouée, par exemple) et de le rendre globalement plus rapide ».
Le deep learning a également permis à Nuance de proposer l'option d'autoponctuation à ses clients : ou bien ils précisent la ponctuation qu'ils souhaitent dans leur dictée ou bien ils laissent le logiciel s'en charger. Enfin, la possibilité de personnaliser son vocabulaire grâce à l'analyse de documents existants permet à l'outil d'extraire des mots ou des noms qu'il ne connaît pas pour les ajouter automatiquement à un profil utilisateur. Une solution idéale pour les avocats ou les médecins, par exemple.
Le marché auquel s'adresse Nuance est évidemment très vaste, depuis les étudiants aux grands groupes en passant par les travailleurs indépendants ou les PME. Mais il est des demandes, pourtant récurrentes, auxquelles Nuance ne peut encore répondre. C'est le cas notamment de la retranscription pure de réunions de plus de deux interlocuteurs.
« Nous travaillons actuellement sur ce sujet, explique Françoise Mohymont ; certes, nos technologies se rapprochent de plus en plus de ce besoin, mais nous avons choisi de préparer une solution globale avec un partenaire qui combinerait notre logiciel avec du matériel de capture de son ».
Cette solution, qui n'existe pas encore, impliquera que chaque interlocuteur ait un micro dédié, pour qu'ensuite chacune des pistes des collaborateurs soit isolée, analysée, retranscrite, puis intégrée avec les autres dans un compte-rendu unique.
Retranscription à la demande
De son côté, c'est sur le créneau de la retranscription automatique à la demande, depuis une plateforme en ligne, que se positionne Authôt. Cette société française créée en 2012 par deux ingénieurs propose à ses clients d'envoyer leurs fichiers audio ou vidéo à retranscrire via sa plateforme pour que le système de retranscription s'exécute. Des corrections peuvent ensuite être apportées depuis un éditeur en ligne avant de télécharger la retranscription au format de son choix (texte, sous-titre, formats web, etc.). Certes, l'outil met en avant un taux de fiabilité de 95 %, mais puisqu'une relecture est parfois nécessaire, Authôt propose également ce service, en option, réalisé par un réseau de rédacteurs indépendant et vérifié par son service de validation.
« Beaucoup de nos clients n'ont pas le temps, ni les effectifs pour réaliser eux-mêmes la relecture des textes, explique Olivier Fraysse, cofondateur d'Authôt ; dans tous les cas, si l'on compare le prix de notre solution avec le coût horaire d'un salarié réalisant ces tâches lui-même pour sa société, notre outil permet de diviser par deux ou par trois ce coût et les délais ».
La technologie utilisée par Authôt est de deux ordres : d'abord la reconnaissance vocale, comparable à ce que nous retrouvons dans nos smartphones et dans nos ordinateurs, et ensuite de la retranscription automatique de la parole, basée sur le langage naturel et auto-apprenante. Plus celle-ci sera utilisée, plus elle s'améliorera.
« Grâce au machine learning, notre fiabilité est bien meilleure qu'en 2012, confirme Olivier Fraysse ; il y a eu un réel saut technologique en la matière il y a deux ou trois ans, qui a boosté les performances ».
Les applications d'Authôt sont de quatre types, selon les demandes de ses clients : si un tiers d'entre eux souhaitent de la transcription classique de fichiers audio, le reste se concentre sur de la retranscription pour des sociétés de production (transcription de scripts ou rushes), du sous-titrage de vidéos ou de cours en ligne (Mooc, etc.) pour le monde de l'éducation ou des pouvoirs publics afin de répondre aux normes d'accessibilité numérique, et enfin de l'indexation de contenus multimédias avec génération de mots-clés pour un meilleur référencement naturel.
Actuellement, Authôt travaille à l'amélioration continue de son système, à la création de nouvelles langues pour ses retranscriptions ainsi qu'à l'agrégation de différentes technologies qui permettront de fiabiliser toujours plus son système. Il pourrait lui aussi prendre en charge prochainement un système de ponctuation automatique et de reconnaissance optique de caractère dédié aux vidéos.
Et du côté des outils gratuits ?
Si ce type de technologie permet évidemment de gagner du temps (et donc de l'argent), son adoption représente un coût non négligeable : pour Dragon, comptez environ 400 euros pour la version individuelle et 850 euros par utilisateur pour la version groupe. Chez Authôt, vous devrez débourser 54 euros hors taxe pour une heure d'enregistrement à retranscrire (dégressif si vous achetez des crédits par lots) et près du double si vous souhaitez une relecture.
Si de telles dépenses sont incompatibles avec votre budget, il existe quelques solutions alternatives gratuites, certes plus imparfaites, mais qui peuvent dépanner. C'est le cas tout d'abord des outils de dictée vocale développés par Apple et Microsoft pour leurs smartphones et leurs ordinateurs. Basés sur les technologies de commande vocale, ils impliquent une élocution extrêmement fluide et claire ainsi qu'un environnement le plus silencieux possible. Pratiques pour de la dictée vocale, ces outils nécessiteront en revanche, pour de la retranscription de fichier audio, que vous écoutiez l'enregistrement dans un casque et que vous répétiez les phrases une par une. Certaines personnes fâchées avec la frappe sur clavier apprécieront néanmoins.
Une autre astuce consiste aussi à utiliser l'outil de sous-titrage automatique proposé gratuitement par YouTube. Attention, la plateforme n'acceptant de charger que des fichiers vidéos, il vous faudra préalablement transformer vos fichiers audio en vidéo à l'aide d'un logiciel de montage basique (pour cela, il vous suffit d'ajouter une image fixe sur la ligne de montage). Une fois votre fichier « vidéo » exporté dans YouTube, la plateforme pourra vous proposer un sous-titrage automatique avec repères de temps intégrés. Mais attention, l'outil, qui est par ailleurs loin d'être parfait, ne propose pas ce sous-titrage de façon systématique. Il suffit que la vidéo soit trop longue, que sa qualité audio soit médiocre, ou que plusieurs interlocuteurs parlent en même temps pour que YouTube ne puisse les générer. Et pour l'avoir testé, nous vous conseillons là encore de ne l'utiliser que si la qualité de votre son est la plus parfaite possible.