Le vocal cherche sa voie

Les technologies vocales (reconnaissance de la parole et synthèse vocale) peinent encore à s'imposer dans les entreprises et les centres de contacts. Ce n'est plus la méfiance à l'égard de la technique qui freine cette expansion, mais plutôt le contexte économique morose. Pourtant, le vocal peut apporter des solutions intéressantes en matière d'automatisation de certaines tâches, ou pour affronter les débordements en cas de pics d'appels.

Par Patrick Cappelli le 1 avr. 2004

Lecture
12 min

Imprimer

En France, les applications vocales ne sont pas une nouveauté. Les numéros audiotel à revenus partagés, promus par l'opérateur national, ont habitué les consommateurs à utiliser ce genre de solutions. « De nombreux opérateurs se sont mis à faire des applications vocales pour les entreprises, car elles représentaient une manne substantielle pour ces sociétés », explique Carine Ziol, chef de produit chez NetCentrex. Même avis du côté de Laurent Bailly, responsable des solutions de gestion du contact client chez Atos Wordline (division d'Atos Origin) : « Dès le début des années 90, les numéros audiotel ont engendré les premiers services vocaux. » L'arrivée de standards (Voice XCML pour les applications sur le Web, MRCP pour les moteurs de reconnaissance vocale) ont ensuite donné un coup d'accélérateur au vocal. Les banques ont été les premières à utiliser ces technologies, puis les opérateurs de téléphonie mobile, le tourisme, etc. Les annuaires vocaux d'entreprise sont également une application qui intéresse de plus en plus les sociétés. « Le vocal permet d'automatiser des tâches répétitives. L'annuaire interne à reconnaissance vocale, ça marche », affirme Carine Ziol. Les portails vocaux se développent également. « Les portails vocaux à partir de numéros courts permettent d'agréger différents services basés sur de la reconnaissance vocale », précise Laurent Bailly, qui cite ainsi la société Cap Multimédia (jeux, sonneries de mobiles) qui gérait dix numéros audiotel avant de les rassembler sous le seul 32 02. Néanmoins, malgré l'intérêt pour ces systèmes, l'explosion du vocal, pronostiquée par les instituts d'études, n'a pas eu lieu (voir aussi Centres d'Appels n° 46). Le ralentissement de l'économie, la crise des télécoms et le haut niveau d'investissement requis par les technologies vocales ont freiné leur diffusion massive. Le nombre réduit des intervenants prouve que ce marché reste difficile. En un an, SpeechWorks a disparu en tant que tel, intégré à ScanSoft (qui avait auparavant racheté Lernout & Hauspie puis Philips Speech Processing), Nuance s'est recentré sur son marché domestique, les Etats-unis. Elan (France) et Babel (Belgique), deux acteurs de la synthèse vocale, se sont rapprochés. Et Dialoca, acteur français indépendant, est en liquidation judiciaire. La société Vocalcom, fournisseur de solutions de centres d'appels, a fait une offre de rachat. « Mais seulement si les gens restent, sinon, c'est sans intérêt », précise Antony Dinis, président Europe. Patrick Lemesle, directeur général de Dialoca, explique la raison de cette issue négative : « Le marché de la reconnaissance vocale n'est pas encore bénéficiaire. Nos investisseurs ont décidé de ne pas faire le troisième tour prévu. Or, cette activité nécessite un soutien financier conséquent. »

Un “agent transparent”

Victime du coût de développement d'applications qui ne se sont pas révélées rentables, la société française a donc été contrainte de cesser ses activités. Pourtant, un de ses produits, l'annuaire d'entreprise vocal Directory, a eu un certain succès. « Il existe un vrai besoin pour ce type de solution packagée avec des cycles de vente courts », estime Patrick Lemesle. Pour le dirigeant de Dialoca, la reconnaissance vocale n'est pas encore un “must have”. Dans un contexte économique ralenti, seuls les dossiers qui répondent à de vraies contraintes sont acceptés. Ce qui ne semble pas être le cas pour le vocal. Pour Antony Dinis, « la reconnaissance vocale marche de mieux en mieux, mais pas dans cent pour cent des cas, et on ne doit pas l'imposer à l'utilisateur ». Vocalcom travaille avec Elan et l'italien Loquendo (issu de Télécom Italia) pour la synthèse vocale, et avec Dialoca et l'espagnol Natural Vox pour la reconnaissance de la parole. « Si la synthèse vocale fonctionne bien, il faudra encore quelques années pour que la reconnaissance de la parole s'impose », estime Antony Dinis. En raison, selon lui, d'une sensibilité trop importante aux bruits ambiants qui oblige les locuteurs à recommencer leur énonciation au moindre son parasite, au risque de les décourager. C'est pourquoi il préfère le système “d'agent transparent” mis au point par l'espagnol Natural Vox : « Si le moteur a un doute, il passe le message vocal à un téléopérateur qui le ressaisit, le tout sans que l'interlocuteur ne s'en aperçoive. » D'après Antony Dinis, une trentaine de banques espagnoles et sud-américaines utilisent déjà ce système. « Le système de l'agent transparent est sans contraintes pour l'utilisateur. C'est aussi plus modeste en termes d'ambitions vis-à-vis de la reconnaissance de la parole et surtout plus réaliste. » Eliminer au maximum les contraintes pour l'appelant, c'est, selon Vocalcom, la clé du succès pour la reconnaissance de la parole. Chez Telisma, issu de France Télécom Recherches et Développement, on se concentre sur les moteurs de reconnaissance vocale à destination des opérateurs télécoms. Ni reconnaissance embarquée ni synthèse vocale (dite aussi text to speech ou TTS) pour cet éditeur français qui revendique au moins une référence majeure avec chaque opérateur. Selon Jean-Jacques Devaux, son directeur marketing, « le marché français du vocal est tiré par les hébergeurs de solutions que sont les opérateurs de télécoms ».

Remplir un service de A à Z

France Télécom, par exemple, investit beaucoup dans ces systèmes qui commencent ainsi à toucher le grand public. Les services de masse sont d'ailleurs la clé de la viabilité de la reconnaissance de la parole, selon Telisma, qui a toute confiance dans sa technologie. « Toutes les belles affaires de reconnaissance vocale des douze derniers mois ont été faites avec nos produits », affirme Jean-Jacques Devaux. Une autre clé du succès selon ce fournisseur, c'est la focalisation sur un seul segment. Pour le directeur marketing de Telisma, l'erreur de Dialoca a été de se diversifier tous azimuts. « Même si leur annuaire d'entreprise a bien marché, il faut un minimum de masse critique », analyse-t-il. Il est également nécessaire de bien cibler les services pour lesquels la reconnaissance vocale est pertinente ou se positionner en relais de services existants. C'est par exemple le cas pour la SNCF (voir en p. 6) qui a mis en place un portail avec numéro unique, le 36 35, pour qualifier les appels et les diriger vers le bon centre de contacts. Cette technique est également un bon moyen de faire face aux pics d'appels, ou de combler un manque de disponibilité des opérateurs humains en dehors des heures d'ouverture. « Nous parlons ici d'un mode semi- automatique, en répondant à l'utilisateur sans remplacer l'opérateur », précise Jean-Jacques Devaux. C'est le cas à la Macif ou chez alapage.com, pour les pics d'appels de la période de Noël. De plus en plus, la reconnaissance vocale est employée pour remplir un service de A à Z. D'ailleurs, les annonceurs ne s'y sont pas trompés, puisque l'on voit se multiplier les publicités télévisées qui renvoient sur un numéro d'appel géré via un système de reconnaissance de la parole. Et les évolutions techniques devraient continuer, permettant dans un avenir proche de prononcer des phrases complètes reconnues par l'automate. « Nous croyons beaucoup à cette capacité à comprendre des requêtes complexes », avoue le directeur marketing de Telisma. L'éditeur annonce pour les semaines à venir une nouvelle génération de produit qui viendra remplacer l'actuel moteur ASR 3.2.

Un marché rentable ?

L'acteur majeur de ce marché, l'américain ScanSoft, est lui présent sur tous les créneaux du vocal : reconnaissance, synthèse, embarqué. Il équipe les utilisateurs via des partenaires (intégrateurs, hébergeurs ou équipementiers). « Nous fournissons les technologies et les solutions packagées, mais nous ne sommes jamais en contact avec les centres d'appels, sauf cas précis », détaille Grégory Vanesse, directeur des ventes France. Il estime le marché du vocal à environ 30 % des un million et demi de positions existantes dans les call centers européens. Les secteurs potentiellement intéressants sont la Banque et les Assurances, les services de Santé, les Transports et le Tourisme et les outsourceurs. Mais le directeur des ventes reste prudent quant à une hypothétique explosion des services vocaux : « Chaque année, on nous dit que cela va être l'année du vocal… » Néanmoins, il pense que ce marché est aujourd'hui mature, et surtout, rentable. ScanSoft met en avant une approche plus orientée “business” que ses prédécesseurs comme Philips Speech Processing ou SpeechWorks, qui, malgré des investissements en recherche et développement considérables, n'ont jamais pu dégager de bénéfices. ScanSoft a organisé sa division vocale en trois business units : dictée (pour le grand public), network (reconnaissance et synthèse) et embarqué (constructeurs automobiles). De plus en plus, ScanSoft dit installer des applications complètes, comme la réservation d'hôtels chez Travel Inn en Grande-Bretagne. Les annuaires d'entreprises sont également un segment en développement. « Nous avons des demandes chaque semaine », se félicite Grégory Vanesse. La dérégulation du marché des télécoms va permettre aux portails vocaux de se multiplier. Les banques restent une valeur sûre pour le vocal, avec des applications au Crédit Lyonnais ou chez BNP Paribas, en France, Deutsche Bank et Citybank, à l'étranger. En ce qui concerne la synthèse vocale, ScanSoft est en compétition avec d'autres acteurs comme Elan ou Loquando (Italie). ScanSoft revendique 60 % de parts de marché sur ce segment du text to speech. La société américaine s'apprête à déployer ses nouvelles voix allemande et anglaise. Par ailleurs, les contenus dynamiques permettent de modifier rapidement les contenus des annonces parlées, comme pour les prévisions météo, par exemple.

Vers des applications packagées

Autre axe de développement de la synthèse vocale : les voix “customisées” pour les sociétés. « Chaque entreprise a sa voix, qui fait partie de l'image de la société. Nous prenons un “voice talent”, souvent un acteur, et nous synthétisons sa voix. Par la suite, on peut réutiliser cette voix pour changer les annonces », explique Grégory Vanesse. Pour lui, la tendance est aux applications packagées, grâce aux “dialog modules”. Avantage : réduire le “time to market”pour les solutions verticales (Santé, Banque, Tourisme, etc.). Aujourd'hui, ScanSoft réalise 45 % de son chiffre d'affaires (136 millions d'euros en 2003) avec sa division vocale, contre 55 % pour la reconnaissance automatique de caractères (OCR), son métier de base. Mais la société prévoit d'augmenter le pourcentage du vocal jusqu'à 70 %, en 2006. Cette progression passera nécessairement par un effort soutenu en R & D (un tiers du chiffre d'affaires actuellement), et une restructuration de l'entreprise suite aux rachats effectués ces dernières années. Côté produits, ScanSoft propose en reconnaissance vocale SpeechPearl, issu de Philips et OSR 2.0, provenant de SpeechWorks, les deux seront bientôt disponibles en 48 langues. En synthèse, il s'agit de Speechify (SpeechWorks) et RealSpeak (Lernhout & Hauspie). Les standards MRCP et VoiceXML devraient donner un nouveau souffle aux applications vocales selon le fournisseur de technologies, en accélérant le déploiement des projets via le téléchargement de pages Web. Conclusion de Laurent Bailly, d'Atos Worldline : « Il n'y a plus un appel d'offres sans reconnaissance vocale, qui devient incontournable. Mais sa part est encore faible par rapport au DTMF. »

Le coût du vocal

Combien coûte une application de reconnaissance vocale, ou de synthèse ? Le prix dépend du fournisseur de technologies, mais aussi des services associés qui peuvent doubler la facture. Chez Vocalcom, on estime le coût du système de synthèse vocale à environ 2 à 300 euros par port. Pour la reconnaissance vocale, le logiciel de Natural Vox est proposé à 2 500 euros. Chez ScanSoft, la licence du logiciel SpeechPack de reconnaissance de la parole vaut de 400 à 1 400 euros par port, suivant le nombre de mots. Le prix des systèmes de text to speech Speechify et RealSpeak est d'environ 500 euros par port. Chez Telisma, le moteur de reconnaissance vocal ASR 3.2 va de 400 à 1 200 euros par port. Carine Ziol de NetCentrex chiffre le coût d'une ligne vocale à environ 1 000 euros.

Les nouvelles tendances du vocal

Le cabinet Atos Worldline (division d'Atos Origin) s'est penché sur les tendances actuelles et à venir dans l'univers des technologies vocales. - La reconnaissance vocale par apprentissage : cette technique permet de compléter dynamiquement le vocabulaire d'un moteur de reconnaissance vocale, en transformant automatiquement les mots additionnels en séquences de phonèmes. Applications : prononciation de patronymes, personnalisation d'applications vocales. - Les très grands vocabulaires : ces techniques permettent de porter le nombre de mots possibles à plusieurs centaines de milliers de mots. Applications : annuaires, catalogues. - Le langage naturel : il devient possible de proposer une interprétation relativement pertinente de réponses à des questions ouvertes. Applications : agents conversationnels, dialogue automatisé, traitement des mails. - Les grammaires dynamiques : elles sont modifiables en temps réel, en fonction des interactions avec l'utilisateur, et permettent d'adapter la fonction de reconnaissance vocale au profil de l'utilisateur ou au contexte de son appel. - La synthèse vocale personnalisée : les voix de synthèse deviennent personnalisables. Il peut s'agir d'une voix “clone” d'une voix existante (comédien, personnalité), d'une voix paramétrée (en tonalité, débit, intonation, accent) ou d'une voix spécialisée pour un contexte particulier. - La synthèse vocale avec émotions : elle vise à améliorer le rendu d'émotions portées par la voix de synthèse (joie, tristesse, mécontentement, etc.). A l'inverse, certains travaux visent la reconnaissance d'émotions dans la voix d'utilisateurs humains, ce qui permettrait d'ajouter une dimension supplémentaire à la reconnaissance vocale. - Push to talk : cette nouvelle fonction permet à un groupe d'utilisateurs de communiquer entre eux grâce à leur téléphone mobile à la manière d'un talkie- walkie. Ce mode d'interaction pourrait être mis à profit pour certaines applications vocales.

Publié par :
La rédaction

Tags associés :

#LES SERVICES