A 27 ans, Thibault Duchemin est le cofondateur d'Ava, une application mobile de reconnaissance vocale lancée en 2016 au service de l'accessibilité. Basée sur l'intelligence artificielle, elle permet aux sourds et aux malentendants de sous-titrer en temps réel une conversation, même de groupe.
Comment Ava est-elle née ?
Je suis tombé tout petit dans la marmite de l'accessibilité car, mes parents et ma soeur étant sourds, j'étais la seule personne de ma famille à être entendante. J'ai passé mon enfance à interpréter pour eux des appels, des discussions, des rendez-vous chez le médecin ou chez le banquier. J'ai donc grandi en assistant au quotidien frustrant des personnes mal entendantes, qui évoluent dans un monde qui ne leur est pas adapté. Mais l'élément déclencheur a été lorsque ma soeur a décidé de faire des études de droit et qu'elle s'est rendu compte qu'il n'existait aucun avocat sourd en France : comment suivre des études dans un amphithéâtre si vous ne pouvez pas comprendre ce que dit le professeur ou que vous n'avez pas les moyens de faire appel à un interprête ?
Il se trouve que j'étais à ce moment-là étudiant à Berkeley où je suivais un master en intelligence artificielle (IA). J'ai réalisé que l'on pourrait utiliser la technologie de Siri non pas pour simplifier la commande de pizzas ou régler les alarmes de son domicile, mais pour rendre le monde plus accessible à des centaines de milliers de personnes. Mais créer un équivalent à la touche sous-titrage du téléviseur pour les conversations de la vie réelle était alors impossible technologiquement. Car si une IA de reconnaissance vocale fonctionne très bien dans le silence ou quand on fait l'effort de s'adresser distinctement à un robot, dès qu'il y a du bruit comme lors d'une conversation de groupe, ou quand les gens parlent parfois en même temps et de façon plus relâchée, les résultats de ces IA chutent totalement. Mes deux cofondateurs et moi, dont l'un est sourd, nous sommes donc mis au travail à Berkeley afin de créer la première IA qui puisse sous-titrer n'importe quelle conversation. C'est de là qu'est partie Ava, qui veut dire "audiovisual accessibility" (accessibilité audio visuelle), car elle transforme une information auditive en une information visuelle.
Quels défis technologiques avez-vous dû surmonter ?
Le problème dans une conversation de groupe réside dans le signal, c'est-à-dire la voix des personnes, qui est généralement trop éloignée des micros. Nous avons donc cherché un moyen simple de mettre à contribution tous les micros présents autour d'une table, sachant que le micro le plus accessible à tous est celui de son smartphone. Avec Ava, nous avons donc créé le premier système distribué de microphone à travers une application à télécharger sur son mobile.
Le problème technologique que l'on résoud est la restitution en temps réel d'une conversation avec l'intervention de plusieurs micros, quelle que soit leur nature (iOS ou Android) ou leur calibration. Nous utilisons pour cela des technologies de biométrie (pour comprendre l'empreinte vocale des participants) et des technologies de reconnaissance et de transcription vocales. Cela nous permet de savoir en temps réel qui dit quoi de façon précise.
Comment assurez-vous la sécurité des données des utilisateurs ?
Dès la conception d'Ava, l'idée était d'avoir un système distribué permettant à chaque utilisateur de régler les paramètres de sécurité et de confidentialité qu'il désire. De plus, nous ne sauvegardons aucune retranscription sans l'accord des utilisateurs et celle-ci n'est éventuellement réutilisée qu'à des fins d'amélioration de l'IA. Par ailleurs, notre système économique ne dépend pas de la publicité, c'est pourquoi Ava n'est pas gratuit : cette insitation fait que nous offrons un service sûr qui fonctionne toujours mieux et auquel les gens sont contents de s'abonner. Enfin, l'IA est aujourd'hui développée et améliorée en France et l'on respecte évidemment toutes les règles du RGPD.
Que pensez-vous de l'essor des assistants vocaux et autres applications de la reconnaissance vocale ?
En réalité, je ne suis pas tant critique envers les plateformes qu'envers les applications qui en sont faites. La reconnaissance vocale, c'est quarante-cinq années de recherche. Mon interrogation, c'est pourquoi des milliers personnes travaillent sur les assistants de la maison et que nous sommes seulement dix à améliorer une application qui pourrait pourtant avoir un vrai impact. Car il y a un vrai marché : 450 millions de sourds et de malentendants dans le monde, cela fait 5 % de la population. Il y a beaucoup plus de personnes sourdes que l'on croit, et notamment les plus âgées (50 % des plus de 75 ans auront un problème d'audition). Avec Ava, nous préparons donc le futur.