August 20, 2022
Vous allez tout comprendre : la reconnaissance vocale (série spéciale)

La reconnaissance vocale est de plus en plus présente dans nos objets connectés du quotidien. Mais savez quand cela a été inventé ? Comment ça marche exactement ? Quelles sont les enjeux ? Tout l'été, Monde Numérique décrypte des technologies de notre quotidien. Bonne écoute !


En partenariat avec

Siri, Alexa, Google... Les assistants vocaux ont popularisé la reconnaissance et la synthèse vocale. Mais savez-vous que les premiers systèmes de reconnaissance vocale ont été inventés dans les années 60 ? Depuis, cette technologie n'a cessé de se moderniser. Elle a fait un lien grâce à l'intelligence artificielle. Aujourd'hui, la voix est devenue un moyen extrêmement pratique pour interagir avec les machines. Il existe plusieurs techniques de reconnaissance vocale. Les machines savent également, aujourd'hui, se faire entendre grâce à la synthèse vocale qui a fait des progrès phénoménaux, au point de pouvoir aujourd'hui imiter des voix humaines existantes. Des avancées qui ne sont pas sans risques cependant. Monde Numérique décrypte le fonctionnement de ces technologies et analyse leur impact futur.

   Avec : 

🔵 Emmanuel Vincent, chercheur à l'INRIA, spécialisé du traitement la parole.  

🔵 Luc Julia, spécialiste de l'intelligence artificielle, co-inventeur de l'assistant Siri (redif). 

🔵 Stéphane Dadian, ingénieur en PNL, co-fondateur de Juice (redif)

🔵 Rafi Haladjian , créateur du lapin connecté Nabaztag, co-fondateur de Juice (redif)


Cet épisode vous a plu ? Découvrez la série spéciale Vous allez tout comprendre consacrée aux technologies du quotidien.

Transcript

Introduction

 

Dialoguer avec une machine comme on parle à un être humain. C'est un vieux rêve qui est presque devenu aujourd'hui une réalité. Nos enceintes audio, nos smartphones, nos montres connectées, nos téléviseurs, nos voitures ont des oreilles. Ces objets connectés semblent comprendre ce qu'on leur dit et ils nous répondent. Ce n'est pas parfait, mais il faut dire que derrière une apparente simplicité, c'est un véritable défi technologique. Comment fonctionne la reconnaissance vocale ? La synthèse vocale. ? Pourra-t-on un jour converser pour de bon avec une machine ? C'est ce que nous allons voir dans cet épisode spécial du Monde Numérique.

Bienvenue !

Cet épisode vous est proposé en partenariat avec Orange, qui a Monde Numérique pour vous aider à mieux comprendre la technologie choisie.

Historique

 

Pour décortiquer la reconnaissance vocale et la synthèse vocale, on va donner la parole à plusieurs spécialistes. En premier, j'ai interrogé Emmanuel Vincent, chercheur à l'INRIA, spécialiste du traitement de la parole.

C'est de l'histoire ancienne

[Interview Emmanuel Vincent]

Les grands-parents des assistants vocaux Siri, Alexa ou Amazon sont nés il y a 70 ans. Ils avaient pour noms Audrey, un système créé par les laboratoires Bell, qui savaient reconnaître les chiffres de 1 à 9. Il y a eu la Shoebox d'IBM, en 1962, qui a fourni les chiffres et 16 mots en anglais. Puis, dans les 70, le système Harpy de l'université Carnegie Mellon, capable de reconnaître plus d'1 millier de mots. À cette époque, on commence même à s'emballer pour la reconnaissance vocale. Certains prédisent carrément la disparition des machines à écrire. Bon. Les machines à écrire ont disparu, mais pas au profit de la reconnaissance vocale. C'est surtout l'avènement de l'informatique personnelle qui va marquer une étape.Vers la fin des années 90, la dictée vocale devient accessible à tous avec notamment le logiciel Dragon, de la société Nuance. Qui fait le bonheur – ou le malheur – des avocats et des médecins. Le malheur, car il faut encore un long apprentissage. Il faut répéter des mots, patiemment, devant son ordinateur, pour apprendre au logiciel à reconnaître la voix de son maître.

Comment ça marche, la reconnaissance vocale ?

 

En apparence, c'est simple. Un micro capte la voix, la transforme en signal électrique, qui est lui-même transformé en données numériques. Pendant longtemps, on a utilisé la reconnaissance des phonèmes, c'est-à-dire les sons qui composent une langue (i, e, a, o, u. pp, bb, mm). En Français, il y 37 phonèmes.

Les logiciels de reconnaissance vocale sont d'abord basés sur des règles programmées manuellement. C'était très imparfait. Par exemple, le lapin connecté Nabaztag, au début des années 2000, était l'un des premiers objets connectés avec un semblant de parole. Son créateur, Rafi Haladjian, se rappelle que c'était très approximatif.

[Interview Emmanuel Vincent]

Mais dans les années 2000, tout va changer grâce à l'intelligence artificielle et au cloud. La reconnaissance vocale, ça passe par des datas center. Emmanuel Vincent, de l'INRIA

[Interview Emmanuel Vincent]

Stéphane Dadian, est également spécialiste de la reconnaissance vocale. Il confirme que l'IA a tout changé.

[Interview Stéphane Dadian]

Donc, l'IA a, en quelque sorte, a fourni les oreilles des systèmes de reconnaissance vocale. Une fois que le modèle est entraîné, le système est en principe capable de comprendre ce que l'on dit. Sauf que l'IA, elle est comme nous, elle ne connaît pas toutes les langues, ni surtout tous les dialectes et tous les accents. Alors, comment faire pour s'adapter à tous les locuteurs ? Réponse d' Emmanuel Vincent, de l'INRIA

[Interview Emmanuel Vincent]

Ça, c'est important, car c'est la future étape de la reconnaissance vocale. Le fait qu'on l'on puisse discuter de manière fluide sans répéter à chaque fois le nom de son assistant vocal.

Les assistants vocaux

 

Tiens, les assistants vocaux justement ! Ce sont vraiment eux qui ont popularisé l'usage de la reconnaissance vocale auprès du grand public. Siri, Google, Alexa.

Siri, d'Apple, est apparu en 2011 dans l'iPhone 4S. Mais son développement avait commencé bien plus tôt, dans les années 90. Pour en parler, qui de mieux que son co-créateur, le français Luc Julia qui racontait la création de Siri dans Monde Numérique en avril 2022.

[Interview Luc Julia]

Malheureusement, Siri va prendre un coup de vieux avec l'arrivée d'Alexa (Amazon) en 2014 et de Google Assistant en 2016. Ces assistants utilisent les nouvelles techniques de deep learning que Siri n'adoptera pas avant 2017. D'autres assistants voix voir le jour également : Cortana (Microsoft), Bixby (Samsung) ou encore Celia (Huawei). Mais les jeux sont faits. Google et Alexa sont bien meilleurs et vont dominer le marché.

Un après son lancement, Google Assistant avait déjà un taux de précision de 95 % sur l'anglais. A ce jour, il reste le seul à avoir un taux d'erreur inférieur à 5 %. Autrement dit, c'est Google Assistant qui a l'ouïe la plus fine. Selon Emmanuel Vincent, cela s'explique notamment par la quantité de données utilisées pour l'entraînement

[Interview Emmanuel Vincent]

Comment fonctionnent les assistants intelligents ?

 

Au-delà de la reconnaissance vocale à proprement parler, comment fonctionne exactement un assistant intelligent. Entre le moment où l'on prononce le mot d'éveil et le moment où sur la réponse à la question qu'on a posée ou l'action qu'on a demandée, il y a plusieurs étapes qui font appel à plusieurs briques. Emmanuel Vincent d'INRIA nous explique tout ça.

[Interview Emmanuel Vincent]

Donc, chaque fois que vous parlez à votre assistant vocal, il ne comprend vraiment pas du tout comme nous. Il est obligé de transcrire par écrit que vous avez dit, pour pouvoir l'analyser. C'est ce qu'on appelle le NLP (Natural Language Processing) ou plutôt en français le TAL (Traitement Automatique des Langues). C'est un terme qui concerne aussi la synthèse vocale dont on va parler tout à l'heure.

Et puis, il y a d'autres éléments qui vont aider à comprendre ce que dit l'humain. C'est le contexte ou plutôt ce que les spécialistes appellent l'intention.

[Interview Emmanuel Vincent]

Au fait, on le rappelle, un assistant n'enregistre pas tout ce qui se passe à la maison. Il est en écoute passive pour détecter dès que l'on prononce le mot-clé et à ce moment-là, il va commencer à envoyer des informations sur le cloud. Des informations que l'on peut d'ailleurs maintenant effacer des serveurs après-coup via l'application mobile liée à l'assistant. Cela dit, de plus en plus, les appareils sont capables de comprendre ce qu'on dit sans utiliser le cloud. Car les smartphones sont de plus en plus puissants et peuvent faire du NLP localement. C'est encore meilleur pour la consommation énergétique et pour la vie privée. En attendant que ça se généralise, les ingénieurs inventent aussi des astuces pour optimiser encore l'Par exemple, Stéphane Dadian est co-créateur de l'application mobile Juice, un agrégateur d'actualités audio, avec un système de commande vocale. Pour cela, il a mis au point ce qu'il appelle des Voice Buttons. Des commandes raccourcies qui utilisent une méthode accélérée d'apprentissage machine.

Accrochez-vous pour les explications, c'est quand même chaud !

[Interview Stéphane Dadian]

La synthèse vocale

 

On vient de parler longuement de la reconnaissance vocale. Comme la machine arrive à nous comprendre quand on parle. Le pendant de la reconnaissance vocale, c'est évidemment la synthèse vocale. Là, c'est la machine qui nous répond. Mais comme elle n'a pas de bouche pour former des mots, comment fait-elle ? Stéphane Dadian .

[Interview Stéphane Dadian]

Alors, c'est fou parce que moi je croyais qu'on était resté à l'époque où la synthèse vocale c'était des sons – des phonèmes – collés bout à bout pour faire des mots et des phrases comme les annonces de la SNCF dans les gares, mais en fait, pas du tout. Maintenant, on peut vraiment dire que c'est la machine qui parle, qui a généré des phrases à la volée.

[Interview Stéphane Dadian]

C'est incroyable de voir à quel point la reconnaissance et la synthèse vocale ont empêché ces dernières décennies. C'est même un peu angoissant parce que c'est vrai que les voix synthétiques deviennent de plus en plus réalistes chaleureuses, même. Il n'y a presque plus ces sauts entre les mots, mais le problème c'est qu'il devient même possible aujourd'hui d'imiter une voix avec une machine. On trouve sur internet une quantité de sites qui proposent de réaliser des deep fakes vocaux, surtout en anglais pour l'instant, comme cette fausse intervention de Barak Obama.     

 EXTRAIT

C'est ce qu'on appelle du clonage vocal.

[Interview Stéphane Dadian]

Futur

 

Le futur de tout cela, c'est sans doute ce que nous préparons notamment Google avec son système Duplex. Un assistant capable de converser avec les humains, par téléphone, au point de s'y méprendre. L'interaction audio avec les machines est donc bien partie pour s'améliorer et pour durer. C'est ce que pense Rafi Haladjian , inventeur du lapin Nabaztag, on l'a dit, mais également co-créateur de Juice.

[Interview Rafi Haladjian]

Il reste quand même une question : est-ce que des assistants vocaux super performants, cela ne risque pas de perturber notre perception des machines et de créer de la confusion, notamment chez les plus jeunes ou les plus naïfs.

[Interview Rafi Haladjian]

Il n'y a pas de honte à être un robot. Cet épisode du Monde Numérique vous était présenté par un humain en partenariat avec Orange.

Merci de l'avoir écouté. Réalisation signée Thomas Lenglain. On se retrouve tout l'été pour décrypter des technologies dans le cadre de cette série spéciale « Vous allez tout comprendre » sur toutes les applis de podcast. Surtout, abonnez-vous pour recevoir tous les épisodes. Faites connaître le Monde Numérique à vos amis. Laissez-moi des petites étoiles et des commentaires sur Apple Podcast, Spotify ou Podcast Addict notamment. Vous pouvez aussi me retrouver sur le site MondeNumérique.info.

Je vous souhaite un très bon été !

Rafi Haladjian Profile Photo

Rafi Haladjian

Co-fondateur de Juice

Stéphane Dadian Profile Photo

Stéphane Dadian

Co-fondateur de Juice

Luc Julia Profile Photo

Luc Julia

Directeur scientifique de Renault | Créateur de l'assistant vocal Siri d'Apple

Emmanuel Vincent Profile Photo

Emmanuel Vincent

Chercheur à l'INRIA