Découvrez toutes les newsletters thématiques gratuites d'Archimag dédiées aux professionnels de la transformation numérique, des bibliothèques, des archives, de la veille et de la documentation.
Archimag vous propose exceptionnellement d'écouter cet article pour vous faire découvrir le text-to-speech
Selon la dernière enquête Médiamétrie Global Audio 2022, 82 % des Français écoutent un contenu audio au moins une fois par jour. Si en haut du podium, la radio rassemble la majorité des auditeurs, l’audio digital prend de plus en plus d’ampleur. Près de la moitié de la consommation se fait sur internet et en particulier sur mobile. Dans les pratiques, le podcast a su prendre ses parts de marché. Ce média enregistre la plus forte croissance avec 17,6 millions d’auditeurs, soit 2,6 millions de plus que l’an dernier.
Chez les éditeurs de presse papier et web, le format intéresse. D’autant plus que 87 % des Français écoutent chaque jour de l’audio d’informations (chiffres Harris Média). Outre-Manche, le magazine The Economist a commencé à mettre à disposition de ses abonnés une version audio de l’ensemble de ses articles dès 2007. En France, plusieurs médias se sont lancés.
Certains, comme Le Monde diplomatique ou encore Médiapart, diffusent depuis quelques années des articles audio lus par des comédiens. D’autres, à l’image de Numerama, Prisma Media ou encore Webedia, se sont tournés vers les solutions de text-to-speech ou synthèse vocale.
Mi-octobre, Le Monde a choisi de faire un mix des deux : pour son application La Matinale, le quotidien a fait appel à six comédiens qui ont chacun lu mille phrases du journal et alimenté ainsi une intelligence artificielle. Aujourd’hui, celle-ci permet de mettre en audio de manière automatique tous les articles de la plateforme.
UX, monétisation et stratégie audio
La technologie n’est pas nouvelle et plusieurs acteurs proposent ce type de service. Google, Amazon ou Microsoft figurent parmi les plus gros. Les voix de synthèse se sont nettement améliorées, tant sur l’atténuation de l’aspect robotique que sur la prononciation et la palette de mots retranscrits. Mais pour mettre en place une augmentation audio adaptée, le monde des médias peut désormais faire appel à des entreprises spécialisées.
Si ces acteurs n’ont pas réinventé les voix et le text-to-speech à proprement parler, puisque la majorité fait appel à des technologies déjà existantes, ils développent tous des solutions personnalisables, dotées parfois d’une couche d’intelligence artificielle.
« Nous partons d’une base Microsoft puis nous retravaillons l’intonation, la vitesse de voix et nous avons un apprentissage lexique très poussé », détaille Cécilia Gabizon, vice-présidente et directrice éditoriale du groupe média ETX Majelan. « Beaucoup de ceux qui utilisaient au départ des voix humaines passent aux voix de synthèse. Ces dernières sont en constante progression et coûtent moins cher. »
Du côté de la presse, la mise en place du text-to-speech répond à différentes ambitions. Du point de vue de l’UX (ou expérience utilisateur), la synthèse vocale constitue un format supplémentaire, un moyen de fidéliser ses abonnés, de capter de nouvelles audiences et d’offrir une nouvelle forme d’accessibilité. « Aujourd’hui, nous vivons avec des écouteurs », constate Cécilia Gabizon. Pour les éditeurs de presse, la technologie représente aussi une façon de générer des supports innovants monétisables. Car un grand nombre de modèles économiques reposent encore sur la publicité.
ETX Majelan a embrassé la révolution audio il y a déjà quelques années. Celle-ci commence avec Renault, pour la mise en audio de « flashs news » et autres revues de presse intelligentes pour la voiture du futur. L’agence de presse et de contenus propose ensuite le service à ses partenaires médias.
« Nous proposons trois voies d’accès », poursuit Cécilia Gabizon. « La première est une interface dédiée où l’utilisateur copie-colle son texte sur le principe de “je fabrique ce dont j’ai besoin”. Nous avons ensuite une version API personnalisable avec une augmentation du lexique. Enfin, avec la version “scraping”, nous venons balayer les pages d’articles et extraire ce qui doit être lu. Cela permet de faire des “players” intelligents, d’améliorer la qualité d’écoute, mais aussi de pousser d’autres articles audio à travers des playlists. »
Trouver son identité audio
Pour Hervé Gérard, cofondateur d’Altervoice, « les sites de presse multiplient les façons de consommer l’information et diversifient leurs revenus ». Il ajoute : « d’autant plus que la lecture de la presse web se fait de moins en moins sur ordinateur et la publicité peut devenir envahissante sur les téléphones ou les tablettes. »
Altervoice a été fondé il y a 12 ans. Développée au départ autour de l’informatique au service du traitement des médias vidéo et audio, l’entreprise propose désormais aussi la vocalisation des articles web. Un processus simple et rapide à mettre en place.
« C’est juste une balise HTML à intégrer sur le site internet », explique Hervé Gérard. « Un pattern va extraire les parties à traiter : titre, chapô, intertitre, paragraphes… Lorsqu’un article est mis en ligne, il est transmis de manière automatique à notre serveur qui va générer l’audio. Tout cela se fait en temps réel. Si un journaliste change l’article, l’audio se mettra à jour. »
Audion fonctionne sur le même principe. La régie publicitaire audio offre le service text-to-speech en contrepartie d’une part des revenus issus de la pub. L’entreprise a développé un script qui s’implémente directement dans Google Tag Manager (outil de gestion de balises pour webmasters). L’option text-to-speech s’affiche alors sur tous les articles du site et se génère si le lecteur clique sur le player audio.
« La technologie peut s’intégrer très rapidement », précise Sébastien Damande, directeur des éditeurs chez Audion. « Nous parlons de quelques jours de mise en place. Il faut juste avoir les bonnes personnes au bon moment ! »
De manière générale, le text-to-speech demande tout de même une phase de préparation en amont pour déterminer les parties à retranscrire, le choix des voix, des jingles et la place des pubs… Une façon aussi de se façonner une identité audio propre.
« Tout le monde ne voit pas l’intérêt de ce type de solution », indique Sébastien Damande. Pour renforcer son service, Audion vient de lancer la plateforme Audion 360 qui lui permet de centraliser tout son inventaire audio (podcasts et articles), son gestionnaire de publicité et son interface de statistiques.
Une pratique en forte croissance
Malgré tout, seuls 2 % des lecteurs/auditeurs utilisent aujourd’hui l’option text-to-speech. « Nous sommes encore sur des parts de lectorat assez basses », reconnaît le directeur des éditeurs d’Audion. « Cela dit, nous étions peut-être à 0,5 - 0,6 % il y a un an. Quelque chose est donc en train de se créer. Il commence à y avoir une appétence de la part du lecteur et des annonceurs. C’est un relais de croissance. »
Pour Hervé Gérard d’Altervoice, « le lecteur/auditeur va davantage aller au bout ou quasi au bout de l’article. » Car libre de ses mains, l’utilisateur peut faire autre chose en même temps. « En cela, les podcasts ont révolutionné l’information. » Et les chiffres le prouvent : 36 à 39 % des utilisateurs du text-to-speech atteignent 100 % d’écoute. De plus, « la publicité audio est plus acceptée et plus ciblée », précise-t-il.
Dans le futur, les articles de presse version audio sont voués à vivre une aventure « cross-média » et à se retrouver sur les plateformes de streaming telles que Spotify, Apple Music ou Deezer. Avec la possibilité de créer des playlists privées pour conserver la valeur ajoutée des articles payants ou destinés aux abonnés.
L’ultrapersonnalisation de la publicité représente aussi un enjeu. « Pour le moment, la pub ne fait l’objet d’aucun ciblage », reconnaît Sébastien Damande. « Nous sommes sur du tout-venant et il n’y a pas de collecte de données. La prochaine étape consiste à la modeler en fonction de l’utilisateur. »