Mon compte Devenir membre Newsletters

Le data mining à la portée de tous...

Publié le par

Exploiter la multitude de données transitant au sein de son système d'information, afin d'obtenir une meilleure prise de décision, est souvent perçu comme un enjeu capital par les manageurs. En l'occurrence, le data mining se positionne comme l'outil capable de mener à bien cette mission.

Plusieurs facteurs ont permis au data mining d'être aujourd'hui considéré comme une discipline majeure que les responsables d'entreprises doivent maîtriser: l'intensification de la concurrence doublée de la volatilité de la clientèle d'une part, la multiplication des données et l'augmentation croissante de la puissance de calcul côté hardware d'autre part. Son engouement semble d'ailleurs être davantage qu'un simple effet de mode. Historiquement, le data mining a vu le jour fin des années 1970-début des années 1980, quand les professionnels ont commencé à se soucier des grands volumes de données informatiques inexploitables telles quelles. A l'époque, il consistait à extraire de l'information de gigantesques bases de données de la manière la plus automatisée possible. Le data mining a depuis bien évolué, comme le constate Renaud Finaz de Villaine, directeur marketing et communication de Micropole Univers: «Le data mining permet de créer de la valeur ajoutée dans les données pour une meilleure prise de décision. Auparavant, on s'en servait pour comprendre les défaillances dans le processus des chaînes de production. Aujourd'hui, c'est davantage pour prévoir. On fait de la simulation pour anticiper le futur.» Même vision du côté d'Isabelle Carcassonne, directeur marketing et communication Europe du Sud de Cognos: «Il s'agit, à partir de données historiques, de pouvoir déduire des courbes et des tendances d'évolution. D'essayer aussi de comprendre le comportement vécu du consommateur et de l'appliquer sur un comportement futur.»

On peut considérer aujourd'hui que l'on est entré dans une phase de maîtrise de cette discipline, son usage étant devenu courant avec un processus de mise en place bien huilé. Deux cas de figure peuvent se présenter lorsque l'on s'oriente sur un projet, comme le souligne Hervé Dhélin, directeur marketing de SPSS: «Soit on fait appel à des spécialistes tels que les data miners (ce qui est souvent le cas des grandes entreprises), soit on se dirige vers des solutions progicielles qui garantissent une simplicité d'utilisation.» Les outils de data mining sont généralement utilisés par deux catégories de personnes: l'analyste (statisticien, consultant, analyste financier, etc.) et l'utilisateur final (en général, ni statisticien ni informaticien). L'analyste sait comment interpréter les données mais n'est pas programmeur. Il appréhende le data mining de manière épisodique et spécifique: pour mener une étude marketing, par exemple. L'utilisateur final possède une connaissance empirique des données qu'il traite. Cette connaissance suffit souvent à exploiter l'outil data mining dont il se sert. Quant au mode d'utilisation, aucune véritable tendance semble se dessiner. «On s'aperçoit que le nombre de projets data mining confiés à un tiers est équivalent au nombre de projets directement réalisés en interne. Quant aux modèles prédictifs en direct, ou «à la volée», utilisés en interne, ils rencontrent un succès croissant auprès des Télécoms, de la grande distribution ou de la VPC», confirme Thierry Vallaud, responsable data mining et décisionnel chez Socio Logiciels.

L'époque où les data miners pouvaient décortiquer le contenu des données de l'entreprise semble révolue. «L'offre a beaucoup évolué car l'on peut désormais faire du data mining sans pour autant être qualifié de data miner», confie Olivier Maire, responsable offre CRM SAS France. Les éditeurs ont vite compris l'engouement des utilisateurs pour cette discipline puisque nombre d'entre eux proposent des outils greffés sur des solutions initialement prévues pour la gestion de la relation client. Aux côtés de spécialistes (comme Hyperion Solutions, Informatica, KXEN, SAS, SPSS, Spad), de grands éditeurs comme IBM, Microsoft, Oracle et SAP proposent des fonctions de data mining au sein de leurs offres CRM. «De nombreux éditeurs CRM ont intégré en standard une offre de data mining conçue directement pour des marketeurs et non pour des informaticiens», remarque Renaud Finaz de Villaine. A ne pas négliger non plus le poids des solutions développées en open source et freeware (solutions gratuites), rassemblées autour du projet Weka, qui devient une alternative très puissante aux éditeurs traditionnels (bien maîtriser les concepts de data mining).

Le temps est bien révolu où les data miners devaient «jouer» sur les formules mathématiques et les algorithmes pour obtenir les résultats. Deux grandes familles d'algorithmes sont à noter: celle des méthodes non supervisées (permettant de travailler sur un ensemble de données dans lequel aucune d'elles n'a d'importance particulière par rapport aux autres) et celle des méthodes supervisées (les algorithmes expliquent ou prévoient des phénomènes observables et effectivement mesurés). A souligner qu'en amont existent des méthodes de réduction qui agissent sur un ensemble volumineux de données, épurées de ce que l'on peut considérer comme de l'information non pertinente telle que le «bruit». Si l'on en croit les différents éditeurs interrogés, la différence ne se fait plus sur les algorithmes mais davantage sur les capacités d'adaptation de la solution. «L'important désormais ne se situe plus sur la finesse de calcul des algorithmes, mais davantage sur l'ergonomie et la facilité d'utilisation et la façon dont on va exploiter les résultats», explique Isabelle Carcassonne. Même constat pour Hervé Dhélin: «L'essentiel des différences entre les outils va porter sur l'interface d'utilisation, la capacité d'intégration rapide, la possibilité d'utiliser l'outil par des directions fonctionnelles et non plus seulement des informaticiens-statisticiens. Mais également sur la puissance de calcul et la capacité à traiter de gros volumes de données. Et là, les écarts entre les solutions peuvent être importants.»

Autre constat, le data mining ne doit plus exister en dehors d'une solution, il doit être encapsulé. «C'est la seule chance de succès pour toucher le plus grand nombre d'utilisateurs. Il faut pouvoir visualiser les résultats afin de bien les comprendre, ce qui n'est pas le cas pour la plupart des solutions», constate Renaud Finaz de Villaine. En réalité, les utilisateurs sont friands du côté productif des solutions, autrement dit, elles doivent être en mesure de sortir des résultats rapidement. Bien sûr, le côté intégration dans le système d'information ne doit pas être sous-estime. Selon Thierry Vallaud, d'autres critères sont aujourd'hui essentiels sur les qualités requises des solutions proposées par les éditeurs de solution data mining: «La solution doit avant tout être internationale, fonctionner sous Windows, être multimodèle et ne pas dépasser 15 000 euros par position lors de l'investissement initial.»

Thierry Vollaud (Socio Logiciels):

«La solution doit être internationale, fonctionner sous Windows et ne pas coûter plus de 15 000euros par position lors de l'investissement initial.»

Exemples d'applications

- Identification, par exemple, des 30% de clients qui représentent 70% des profits de l'entreprise.
- Connaissance de la manière dont les facteurs démographiques (ou autres) influent sur les ventes.
- Réduction des coûts marketing, mesure du succès d'une campagne marketing, meilleur ciblage des campagnes, etc. Optimisation de l'impact commercial des sites e-business par une compréhension du comportement des visiteurs.
- Détermination du taux de conversion des visiteurs vers les acheteurs de produits sur les sites web.
- Calcul du taux d'acquisition d'un nouveau client. Détection des défaillances lors d'un processus industriel.
- Analyse des comportements des consommateurs: ventes croisées, similarités de comportements, cartes de fidélité, etc.
- Prédiction de réponses à un mailing ou à une opération de marketing direct.
- Prédiction de l'attrition (ou churn) des clients.
- Détection des comportements anormaux ou frauduleux (transactions financières, escroquerie aux assurances, distribution d'énergie, etc.).

Le Web pèse sur le data mining

Enfin, avec l'arrivée du Web 2.0, on est entré dans l'ère du traitement des données en temps réel. L'interaction entre la marque et son client (via les blogs, les forums) y est plus soutenue et les données sont beaucoup plus détaillées, car le client exprime ce qu'il veut. Mais encore faut-il pouvoir récupérer toutes ces informations hétérogènes qui proviennent de multiples endroits.

«L'utilisation croissante et massive du Web fait quelque peu évoluer l'usage du data mining. Internet est en train de bouleverser la donne, car on ne travaille plus seulement sur de l'information structurée, mais sur du non-structure. Le data mining évolue progressivement vers le text mining», explique Renaud Finaz de Villaine. Nul doute que cette nouvelle orientation, avec la complexité qu'elle entraîne, est suivie de près par les utilisateurs, car elle est en mesure de procurer un gain concurrentiel significatif pour ceux qui sauront bien la maîtriser.

L'important ne se situe plus dans la finesse de calcul des algorithmes, mais davantage au niveau de l'ergonomie et de la facilité d'utilisation.
Isabelle Carcassonne, Cognos

Mot clés :

Jérôme Pouponnot