Mon compte Devenir membre Newsletters

Le vocal en quête de reconnaissance

Publié le par

Comme la Voix sur IP, la technologie de reconnaissance vocale, annoncée année après année, n'a pas vraiment décollé. Les serveurs vocaux interactifs (SVI ou IVR), en revanche, ont fait leurs preuves et se sont perfectionnés. Mais le DTMF (Dual Tone Multi Frequency) a ses limites, et les arborescences trop compliquées font fuir le chaland. C'est pourquoi on assiste à une demande grandissante pour les applications à base de reconnaissance de la parole, et de synthèse vocale, dite aussi “text to speech”.


La reconnaissance vocale est une technologie en mal de reconnaissance. Pourtant, ces applications, qui permettent à un automate de comprendre une question simple, et d'y répondre en puisant dans un corpus d'expressions, sont annoncées depuis un certain temps. En 2000, une analyste du Gartner Group prédisait qu'en 2003, c'est-à-dire aujourd'hui, « 30 % des services clients seront équipés de reconnaissance vocale » (1). Or, force est de constater qu'il n'en est rien. Ni au niveau mondial, et encore moins sur le marché français, pour lequel, de l'avis unanime des intervenants, le taux d'équipement est proche du néant. Ce qui n'empêche pas les analystes de continuer de prédire des taux de croissance soutenus, pour ne pas dire phénoménaux, pour cette technologie (2). Optimiste, mais néanmoins prudent, Patrick Lemesle, directeur général de Dialoca, prévoit que « dans les trois ans à venir, 10 % des SVI existants vont basculer vers la reconnaissance vocale ». Les éditeurs disent signer des affaires et pensent percevoir une vraie demande de ce type de solutions. « En 2000, on surfait encore sur la vague internet, avec beaucoup de projets innovants. En 2001/2002, il y a eu un ralentissement important des investissements informatiques et des problèmes de ROI. En 2003, il y a moins de projets, mais il existe une vraie demande pour l'embarqué, et dans les centres d'appels, pour des applications de qualification des appels », analyse Patrice Vielpau, country manager chez SpeechWorks. Pour Julien Rickauer, responsable solutions poste de travail chez l'intégrateur NextiraOne, « le marché est encore émergent mais va grossir. Auparavant, les technologies n'étaient pas au point. Une fois sur deux, ça ne marchait pas. Aujourd'hui, le taux de reconnaissance atteint 95 %, c'est fiable ». Le secteur de la reconnaissance vocale a pourtant subi un sérieux rétrécissement, du moins en ce qui concerne les éditeurs. Le belge Lernhout & Hauspie a disparu, victime des errements financiers de ses fondateurs. Ses activités ont été reprises par l'éditeur américain ScanSoft, qui a également racheté Philips Speech Processing et, plus récemment, SpeechWorks (voir encadré en p. 64). Quant à l'autre Américain, Nuance, il ne possède plus de bureaux sur le territoire français. Reste Dialoca (ex-MIC2), société issue de l'un des laboratoires français spécialisés dans cette technique, le Loria de Nancy (Laboratoire Lorrain de Recherches et Informatique et ses Applications), et soutenue par des investisseurs comme la Caisse des Dépôts. Et enfin Telisma, fondée par des anciens du Cnet de Lannion, aujourd'hui France Télécom R & D. Pour Julien Rickauer (NextiraOne), « le nombre d'acteurs est faible, car développer un moteur de reconnaissance vocale prend des années ».

Text to speech


Le domaine du vocal recoupe plusieurs technologies différentes. La reconnaissance automatique de la parole (ou ASR pour automatic speech recognition) permet au système d'identifier la question ou le mot prononcé en langage naturel. Ce sont surtout les opérateurs télécoms, et les banques qui utilisent cette technique. Selon Eric Hassid, directeur marketing de NetCentrex, pas mal de choses ont changé en trois ans : « On assiste à une volonté des opérateurs télécoms de pousser ce service. De plus, les prix des logiciels ont baissé. Et les interfaces propriétaires entre les serveurs vocaux et les logiciels de reconnaissance vocale ont disparu. » En effet, alors qu'il fallait, auparavant, s'équiper de cartes vocales en fonction de l'éditeur, les standards comme le MRCP (Media Ressource Control Protocol) ou le Voice XML (langage de programmation) permettent, aujourd'hui, de s'émanciper de ces contraintes. Autre technique : la synthèse vocale, ou “text to speech” (TTS). Il s'agit d'enregistrer des annonces, souvent avec des comédiens, qui serviront de base pour délivrer, ensuite, d'autres messages, en recomposant différemment les phonèmes. « En France, la synthèse est encore très peu utilisée. Ce sont surtout les pays multilingues, comme la Belgique ou la Suisse, qui s'en servent le plus. Pourtant, cette technologie peut rendre de nombreux services, surtout dans le cas de grosses bases de données », pense Eric Hassid. Pour Patrice Vielpau, la synthèse est pertinente lorsqu'il existe une grande quantité d'informations à vocaliser (grosses bases de données), pour écouter ses SMS sur une plate-forme fixe, ou pour écouter ses mails. Pour Max Cointre, business development manager chez Dimension Data, la reconnaissance vocale et la synthèse deviennent intéressantes pour les centres de contacts : « Ce marché a atteint un niveau de maturité qui lui fait rechercher la productivité et la qualité de service. Il faut donc répartir le traitement des appels en deux catégories : soit en les traitant avec des opérateurs humains, soit en les automatisant. » Les applications vocales sont un des moyens d'automatisation des tâches qui permettent de mieux gérer les ressources humaines des centres d'appels. Bien que la France soit en retard vis-à-vis des Etats-Unis, dans l'utilisation des techniques vocales, la demande pour ce type d'applications existe bel et bien. « On remarque trois tendances fortes sur le marché des centres de contacts. La mise en réseau des centres d'appels, l'IP et les applications vocales », estime Max Cointre. Lui aussi a remarqué une baisse des coûts de licences, même si la tarification des éditeurs reste compliquée. Certains font payer à l'accès simultané ou au port. D'autres, pour la synthèse, au nombre de mots utilisés (voir encadré ci-dessous).

Des standards bienvenus


SpeechWorks propose une solution composée d'un moteur de reconnaissance et de composants packagés, les “dialog modules”. « Avant, il n'existait que des configurations propriétaires, composées d'un SVI et d'un logiciel de reconnaissance. Or, cette plate-forme n'était pas réutilisable. Aujourd'hui, avec le langage Voice XML, on peut s'affranchir de ces contraintes », explique Patrice Vielpau. Par ailleurs, le MRCP autorise l'intégration, de manière standardisée, des différents logiciels sur une même plate-forme. Le moteur Open Speech Recognizer (OSR) et le logiciel Open Speech Insight (pour le reporting et l'analyse) permettent de développer des applications complètes. La mise en œuvre s'effectue en différentes phases, par exemple pour l'interface utilisateur. Il faut compter environ trois mois d'installation et trois autres pour les réglages. Côté TTS, SpeechWorks propose Speechify, qui utilise la voix d'un comédien, puis recompose les messages avec des demis phonèmes réassemblés. « C'est un pas de plus vers la voix naturelle », pense le country manager de SpeechWorks. Cette application de synthèse est utilisée par France Télécom et sa filiale Orange. Le Crédit Lyonnais a construit une solution de self-service pour ses clients. Avec l'arrivée de ScanSoft, SpeechWorks veut devenir « un acteur principal sur le marché français en reconnaissance et synthèse vocale », selon Patrice Vielpau. Pour atteindre ce but, la société mise sur le retour sur investissement de telles solutions. « Le coût d'un appel en reconnaissance est de cinq à six fois moindre que le traitement par un téléconseiller », affirme-t-il. Chez Telisma, éditeur français, on vise les secteurs les plus porteurs, c'est-à-dire les télécoms, mais aussi le transport, la distribution, et surtout la banque/assurance. Pour Laurent Balaine, P-dg, « il y a eu beaucoup d'espoirs déçus ces dernières années. Les technologies n'étaient pas forcément matures ». Aujourd'hui, l'éditeur estime que le but est atteint, et que ces techniques doivent être au service des utilisateurs. Telisma opère dans le secteur de la reconnaissance vocale, préférant travailler avec des partenaires pour les applications de “text to speech”. La société, qui emploie 55 personnes et a ouvert des bureaux à Londres et Munich, a bénéficié de deux levées de fonds conséquentes (7,4 millions d'euros fin 2000 et 10,5 en juillet 2002). Elle espère arriver à l'équilibre fin 2004. L'éditeur avance une vingtaine de clients, dont France Télécom, la Macif, Les Echos ou Les Taxis Bleus (voir article en p. 65) et vise les call centers, les opérateurs télécoms et les grandes entreprises. Le moteur de reconnaissance de la parole se nomme Philsoft. Il s'appuie sur la plate-forme client/serveur Voice Distributed Framework, équipée de connecteurs pour la synthèse vocale.

Une plate-forme complète


L'objectif de Telisma est de devenir le premier acteur européen de ce marché, grâce aux multiples applications possibles : qualification d'appels, annuaires d'entreprises, portails vocaux. « Le vocal est complémentaire de la téléphonie. Il permet d'absorber beaucoup d'appels, et de valoriser le travail de l'opérateur en le dégageant des tâches répétitives. De toutes manières, le nombre d'appels qui arrivent dans les centres de contacts ne cesse d'augmenter. Les applications vocales permettent d'absorber la croissance sans exploser les coûts », analyse le P-dg de Telisma. Dialoca, autre acteur français, a un positionnement un peu différent. En effet, l'éditeur propose une plate-forme déjà équipée des logiciels. Créée en 1996 sous le nom de MIC2, Dialoca, structure commerciale, naît en 2002. Elle emploie aujourd'hui une vingtaine de personnes et espère réaliser un chiffre d'affaires de 1,5 million d'euros en 2003. Patrick Lemesle, directeur général et ancien de Bull et Kana, pense que le marché bouge : « La technologie a vraiment évolué. Par exemple, en passant du mono au multilinguisme. Et aussi grâce aux standards d'interfaçage. » Citant le Gartner Group, Dialoca estime que la reconnaissance de la parole sera l'une des quatre technologies incontournables à l'horizon 2010. Positionnée sur le marché de la relation client, elle ne propose pas un moteur à intégrer mais « des solutions concrètes qui apportent un bénéfice immédiat ». Le temps de mise en production est de trois mois en moyenne. Dialoca Directory permet l'automatisation de l'accueil téléphonique des entreprises. Il est commercialisé et paramétré par des intégrateurs comme NextiraOne. Par ailleurs, l'éditeur propose des solutions B to C : Dialoca Call Center, Dialoca IVR, utilisées, par exemple, par Paris Expo. « Le ROI a été rapide car, auparavant, deux personnes étaient employées à l'accueil uniquement pour donner les noms de salons », précise le directeur général de Dialoca. Et Dialoca Web, pour un accès vocal aux sites web. Les solutions B to B comprennent Dialoca Mobility, qui vise les entreprises entretenant des flottes de nomades et Dialoca Security. « Nous voulons créer le marché des solutions vocales », assure Patrick Lemesle.

Une assistance humaine


Outre les éditeurs, les opérateurs de téléphonie sont également des acteurs majeurs de ce marché émergent. Ainsi, France Télécom, Atos Multimédia ou Prosodie offrent des services en reconnaissance de la parole et synthèse vocale à leurs clients. Prosodie a mis au point une solution originale, mixant automatismes vocaux et assistance humaine, le RVAO, ou reconnaissance vocale assistée par opérateurs. Véritable positionnement marketing, ce service fait partie d'une panoplie d'applications vocales mises au point par l'opérateur privé. « C'est un concept maison, avec une optique industrielle via une machine dédiée à la diffusion de messages par téléphone », détaille Thomas Schmidt, business développeur à la direction marketing. Le dispositif permet de venir à l'aide de la machine si elle ne comprend pas la requête de l'appelant. « L'opérateur prend la main et renseigne le système sans que le client ne s'en aperçoive. Cela permet d'enrichir les capacités de compréhension de la machine », explique Thomas Schmidt. La Fnotsi (Fédération des Offices de Tourisme et Syndicats d'Initiative) a choisi cette solution pour son portail vocal. Prosodie possède son propre moteur de reconnaissance de la parole, développé par sa filiale espagnole Siat, mais préfère utiliser des technologies existantes, comme celles de l'éditeur Nuance. Il est également en discussion avec SpeechWorks et Telisma. Mais, quel que soit le système employé, l'opérateur estime que le moteur est secondaire pour le client final. Celui-ci réclame des solutions packagées. Celles mises au point par Prosodie ont différents usages. Par exemple, pour les choix multiples en “liste profonde”, impossibles à gérer avec un système DTMF. Ou encore pour des applications transactionnelles (vente à distance, passage d'ordres boursiers, etc.). Et pour les call centers, dans une optique de préqualification des appels. Enfin, les portails vocaux permettent de proposer un numéro court unique. « Le client peut ainsi communiquer sur un numéro de téléphone attractif, et générer des contacts », estime Laurent Marcelis, directeur marketing adjoint de la division réseaux et services, chez Prosodie. Ces solutions mixtes de reconnaissance assistée semblent séduire les prospects, si l'on en croit l'opérateur télécom : « Le marché s'accélère. Il n'y a plus un appel d'offres d'applications SVI sans reconnaissance vocale », affirme Laurent Marcelis. Malgré la maturité des technologies vocales, les entreprises peinent encore à les intégrer dans leurs dispositifs d'accueil téléphonique. Si les opérateurs télécoms ont ouvert la voie, il reste encore beaucoup de travail à effectuer de la part des éditeurs et intégrateurs pour faire décoller le vocal. « Nous devons toujours évangéliser, montrer des références. Nous souffrons encore du syndrome “est-ce que ça va marcher ?” », rappelle Patrice Vielpau. Avis partagé par Laurent Balaine : « Il y a un décalage entre la perception des technologies de reconnaissance vocale et la réalité. Il existe toujours une forme de scepticisme. » Et Thomas Schmidt de conclure : « Les gens doivent apprendre à parler à la machine. Il manque encore une grande application connue de reconnaissance vocale. » (1) in Centres d'Appels n° 15 (2) Les cabinets américains, Allied Business Intelligence et Chaner In-Stats, prévoient que le chiffre d'affaires mondial du secteur du vocal devrait être de 2,7 milliards de dollars en 2007 et 5 milliards en 2008.

Le prix du vocal


Les intervenants sont unanimes : le prix des licences des logiciels de reconnaissance de la parole et de synthèse vocale ont baissé ces dernières années. Reste que ces techniques ont un coût, pas toujours aisé à déterminer, en raison des tarifications compliquées des éditeurs. Pour Eric Hassid (NetCentrex), il faut compter environ 1 500 euros, par canal, pour une application de reconnaissance vocale, et 1 000 euros pour une langue en mode “text to speech”. Julien Rickauer (NextiraOne) donne une fourchette de 20 à 150 000 euros pour des fonctions d'accueil automatisé ou d'annuaire. Chez SpeechWorks, il en coûte 650 dollars par canal téléphonique pour le produit Speechify. Telisma a une tarification double. Soit en fonction de la complexité du vocabulaire (250 euros le port jusqu'à 40 000 mots, puis 1 500 euros au-delà). Soit en fonction du nombre de mots reconnus. « Ça se rapproche d'un paiement à l'usage et cela permet de limiter l'investissement de départ », explique Laurent Balaine. Chez Dialoca, Directory vaut de 15 000 à 100 000 euros, les solutions B to C, de 60 à 100 000 euros. Quant à l'opérateur Prosodie, il estime qu'un serveur vocal interactif équipé d'une solution de reconnaissance de la parole est, environ, de 20 à 30 % plus cher qu'un système DTMF, jusqu'à deux fois plus onéreux si on installe de la synthèse vocale. Mais cette dépense se justifie dès lors que l'on génère un trafic suffisant, à partir d'un million de minutes par an.

Scansoft avale ses concurrents


L'éditeur américain ScanSoft, spécialisé dans l'imagerie numérique, a récemment acquis plusieurs sociétés éditrices de solutions de reconnaissance et synthèse vocale. D'abord Lernhout & Hauspie, puis Philips Speech Processing et enfin SpeechWorks : la boulimie d'acquisition de ScanSoft, dans le domaine du vocal, va en faire l'un des leaders mondiaux de cette activité. Le gros morceau étant SpeechWorks, parmi les premiers sur le marché de ces technologies avec Nuance. La transaction est valorisée à environ 132 millions de dollars, et devrait être effective durant l'été. L'éditeur anticipe une réduction de coûts de 27 millions de dollars suite à la fusion, principalement en réduisant les effectifs, en regroupant les bureaux et en abaissant les coûts marketing et administratifs. Il prévoit un revenu 2004 de 200 M$, dont 125 provenant des services vocaux. ScanSoft devrait conserver la marque SpeechWorks et continuera à supporter et distribuer les deux gammes de produits.