Reconnaissance vocale pour le suisse allemand

Reconnaissance vocale pour les dialectes

L’IA apprend le suisse allemand


La reconnaissance vocale sera l’une des technologies majeures du futur si elle comprend aussi les dialectes. L’équipe IA de Swisscom développe à cet effet des systèmes vocaux pour le suisse allemand.


Text: Christoph Widmer, Images: Keystone, 06 avril 2018




Ueli Gerber trouve enfin le temps de mettre de l’ordre dans sa cave. Mais voilà qu’une panne de courant survient dans la maison plurifamiliale au moment où Ueli soulève un vase précieux hérité de sa famille. N’ayant pas les mains libres, Ueli décide d’activer la fonction torche de son smartphone par commande vocale: «Salut Siri», gémit-il, «stöu d taschepfunzle ah!» Mais l’ordre n’est pas exécuté. Même après plusieurs tentatives, l’appareil ne réagit pas aux instructions d’Ueli.

Sous le coup du stress, Ueli a oublié une chose: la reconnaissance vocale d’Apple ne fonctionne pas pour le suisse allemand. Et cela vaut également pour d’autres commandes vocales comme OK Google, Alexa ou Cortana qui ne sont pas en mesure d’exécuter des ordres donnés en dialecte. Les systèmes de reconnaissance vocale sont principalement conçus pour les langues les plus parlées dans le monde, à savoir l’anglais ou le mandarin, qui comptent chacune bien plus d’un milliard de locuteurs. Or les Suisses allemands sont au nombre de 4,9 millions.


Reconnaissance vocale: le futur c’est maintenant!

La technologie de reconnaissance vocale connaît un véritable essor surtout dans les régions anglophones: selon des estimations, 40 millions de gadgets à commande vocale comme Amazon Echo ou Google Home auraient déjà été vendus aux États-Unis. Les haut-parleurs intelligents veillent déjà à ce que nous n’ayons plus à nous servir de nos smartphones ni de nos ordinateurs à la maison: par simple commande vocale, ils fournissent des informations sur la météo et le trafic, saisissent les rendez-vous dans votre agenda, lancent vos playlists favorites ou activent les lumières et les machines à café dans les Smart Homes. L’on prévoit que d’ici 2020, près de 240 millions de ménages américains disposeront d’un de ces «assistants personnels virtuels». Du fait que les interfaces utilisateur se rapprochent de plus en plus de la manière dont les individus interagissent entre eux et avec leur environnement, les spécialistes voient dans la reconnaissance et la commande vocales une technologie prometteuse. La futurologue Amy Webb parle même de déclin du smartphone: à l’avenir, la reconnaissance vocale sera omniprésente et le téléphone portable perdra toute utilité, que ce soit à la maison ou à l’extérieur.

Afin que la reconnaissance vocale puisse déployer tout son potentiel, l’accès à la technologie doit être le plus naturel possible. Une «Voice User Interface» éprouvée, abrégée VUI, doit être capable idéalement de gérer des phrases complexes ou des bruits parasites; par ailleurs, les utilisateurs doivent pouvoir activer, par commande, l’intelligence artificielle qui se cache derrière chaque reconnaissance vocale ou tout du moins savoir exactement quand celle-ci écoute. Le système vocal doit également comprendre les accents et les dialectes: «L’heure des systèmes à commande vocale est venue», commente Philipp Egolf, responsable du projet de reconnaissance vocale chez Swisscom. «C’est pourquoi il est de plus en plus important que les personnes puissent, avec ces systèmes, communiquer dans leur langue naturelle.»



brightcoveVideo_skipAdTitle
brightcoveVideo_skipAdCountdown
brightcoveVideo_skipAdRest
brightcoveVideo_skipAdForReal


L’on trouve déjà des systèmes de reconnaissance vocale capables de reconnaître la langue naturelle de l’utilisateur. Dans le secteur des transports par exemple: la nouvelle application des CFF est déjà en mesure de rechercher des correspondances par commande en dialecte; les saisies clavier font désormais partie du passé. Les constructeurs automobiles ont eux aussi pris conscience que les solutions de reconnaissance vocale utilisées dans l’espace germanophone doivent comprendre bien plus que l’allemand standard. La nouvelle Classe A présentée par Mercedes-Benz en est la preuve. En effet, elle dispose d’un système multimédia appelé «MBUX» qui permet par commande vocale avec reconnaissance du langage naturel de saisir des destinations, de passer des appels ou d’écrire et de lire des messages. Dans la mesure où le conducteur n’a pas besoin d’enlever les mains du volant ou de quitter les yeux de la route, MBUX améliore nettement la sécurité routière. En outre, la commande vocale apprend sans cesse de nouvelles choses et devrait dans quelques temps également pouvoir réagir aux commandes données en dialecte.


Service à la clientèle optimisé

Actuellement, l’équipe en charge des solutions IA chez Swisscom travaille à plein régime à la conception de systèmes de reconnaissance vocale des dialectes et de solutions de biométrie vocale. Swisscom se concentre principalement sur l’Interactive Voice Response (IVR), un serveur vocal interactif surtout utilisé par les hotlines. La première communication du client avec l’entreprise se fait généralement via le clavier du téléphone. Une procédure compliquée: après avoir péniblement navigué dans un labyrinthe de «appuyer sur la touche xy», l’on parvient à avoir un spécialiste au bout du fil capable de renseigner sur le problème. Encore faut-il avoir la chance de tomber sur le bon interlocuteur. Faute de quoi la frustration a vite fait de s’installer: en effet, le client attend désespérément de l’aide d’un conseiller qui ne peut, lui, que transmettre la demande.

Grâce à la reconnaissance vocale, les clients peuvent désormais formuler directement leurs questions oralement. Idéalement, les appelants obtiennent immédiatement une réponse de l’IA. Si l’IA n’est pas en mesure de répondre, elle peut toujours identifier des mots clés dans la description du problème et mettre l’appelant en relation avec le bon interlocuteur qui saura conseiller le client. Grâce à la fonction de restauration automatique de la langue originale, il serait même très simple d’obtenir des renseignements pour toutes les langues. Ainsi, la reconnaissance vocale permet d’avoir un service à la clientèle simple et efficace.


Près de 3 000 heures d’apprentissage requis

Le chemin vers une reconnaissance vocale parfaite n’est cependant pas facile. Le processus d’apprentissage du logiciel d’IA est très long: la solution de reconnaissance vocale de Swisscom identifie pour chaque expression suisse allemande le pendant en allemand standard. Les développeurs contrôlent ensuite le travail de traduction et signalent ensuite au système si la solution est correcte ou non. À l’aide de ces retours, l’algorithme apprend en continu. Au fil du temps, le système apprend à comprendre les différents dialectes. L’IA fait ses premiers pas avec le zurichois et le bernois qui sont les dialectes les plus parlés. Swisscom se prépare ainsi à ouvrir la voie à des dialectes moins répandus.

Pour le développement de cette solution, Swisscom coopère avec des chercheurs de l’IDIAP, un institut de recherche indépendant pour l’intelligence artificielle, situé à Martigny. Ce dernier est spécialisé dans l’élaboration de systèmes de traitement vocal et est impliqué dans la mise en œuvre technique de la reconnaissance vocale du suisse allemand. Mais pour que cela fonctionne, il faut non seulement du savoir-faire mais aussi des données. Beaucoup de données: «Pour notre modèle «Open Domain», un système capable de comprendre des phrases entières comme Siri ou Alexa, près de 3 000 heures de matériel vocal doivent être retranscrites et traitées», explique Philipp Egolf.

Pour ce faire, l’IA est également entraînée avec des données issues de nos propres rangs: les employés Swisscom fournissent des échantillons vocaux qui permettent au système de s’améliorer. Les premiers essais comme le défi «Heidi et Peter», lors duquel les collaborateurs de Swisscom ont pu donner leurs extraits vocaux, se sont bien déroulés mais ce n’est que le début: «Nous perfectionnons le système en testant de premiers prototypes avec encore plus de données», explique Philipp Egolf. La solution sera ainsi bientôt capable de maîtriser le suisse allemand dans toute sa diversité dialectale, qu’il soit question de «Taschepfunzle», de «Taschelampe» ou de «Saggladäärne».



Un guichet unique pour l’IA


Le centre de compétences Swisscom pour l’intelligence artificielle appliquée propose à l’entreprise tout ce dont elle a besoin pour la mise en œuvre rapide et réussie de projets relatifs à l’intelligence artificielle: du conseil à l’intégration, en passant par la technologie adéquate.

> Consulter l’offre




Newsletter

Abonnez-vous à la newsletter pour suivre les tendances, les actualités de la branche et les benchmarks.





En savoir plus sur ce thème