La Centrale est une référence pour vendre sa voiture d’occasion. L’entreprise mise sur le Data Mesh pour innover pour ses clients. Les non informaticiens, les Data Citizens, doivent monter en puissance dans l’usage des données. L’approche est à la fois technique et organisationnelle. Cela prend du temps.
Avec 35 millions de visites par mois, La Centrale ainsi que ses sites Caradisiac et Promoneuve sont les références de la vente dans le secteur automobile français. Près de 340 000 véhicules sont en vente sur la Centrale et le taux de rotation est extrêmement élevé. On compte 600 000 nouveaux véhicules qui arrivent chaque mois sur le site.

“La Data nous permet de vérifier que la marketplace fonctionne parfaitement“
L’historique des données permet d’analyser les enjeux métiers du quotidien. « Un deuxième niveau d’analyse est basé sur l’historique des données. Il nous permet de prendre des décisions busines » poursuit-il.Le meilleur exemple du rôle de la donnée est le produit d’appel du site, la fameuse côte des véhicules d’occasion qui est calculée par les algorithmes du site via l’analyse des historiques de vente. De plus, de nouvelles idées apparaissent grâce à ces données. « Enfin, le troisième niveau est d’innover à partir de la Data, de créer de nouveaux produits et d’enrichir nos produits existants » ajoute-t-il.
Une approche classique avec de nombreux défauts
Très classiquement, la stratégie Data de La Centrale s’est bâtie autour d’un gros Data Lake centralisé pour créer des cas d’usage au-dessus et des tableaux de bord de suivi. Mais pour le CTO, cette approche est problématique car toute la connaissance est portée par l’équipe centrale.
“Cela crée un goulet d’étranglement, car tout doit passer par l’équipe Data”
De plus, cela peut poser des problèmes de gouvernance parfois surprenants. En effet, dans certains cas, des producteurs de données n’avaient pas accès à leurs propres données, car ils ne disposaient pas des accès adéquats. « Toutes ces limites entraînent le phénomène du Shadow Data. Chacun travaille avec ses fichiers Excel, essaye de croiser ses données avec d’autres fichiers Excel, et cela conduit à des données de mauvaise qualité et, au final, de mauvaises décisions » déplore-t-il.
Une plateforme dotée de 4 grandes fonctionnalités
Pour résoudre ces phénomènes, le CTO a voulu miser sur l’approche Data Mesh et faire de chaque personne dans l’entreprise un véritable Data Citizen, c’est-à-dire un employé apte à intervenir sur la donnée. Pour implémenter cette vision, La Centrale s’est dotée d’une plateforme Data Mesh reposant sur quatre grands blocs fonctionnels.
Cette solution vise à donner de l’autonomie aux équipes car elles sont responsables des données
Le deuxième outil est plus particulièrement dédié à assurer la bonne qualité des données. Sur ce volet, La Centrale met en œuvre deux solutions distinctes. Il y a d’une part CDK qui permet de déployer automatiquement les outils de contrôle et de monitoring. En complément, il y a la solution Quicksight. C’est une plateforme de suivi de la qualité des données, d’analyse de monitoring et d’alerting sur la qualité de la donnée.
Simplifier l’accès aux données
Le troisième outil vise à simplifier l’accès aux données. Thomas Berger explique comment il a résolu cette problématique. « Nous sommes partis sur la solution DBT Core qui simplifie la création et l’industrialisation des Datamarts et des Data sources » dit-il. « Avec DBT Cloud nous disposons d’une interface simplifiée qui permet à des utilisateurs qui ne sont pas informaticiens, à accéder à la donnée. La solution assure aussi l’orchestration des données ainsi qu’un contrôle des accès » décrit-il.
Le quatrième volet de la stratégie Data Mesh de La Centrale porte sur la documentation de cette donnée. Pour cela, la solution CDK génère le squelette des documentations, notamment des données DynamoDB, Amazon Glue et Redshift de La Centrale. A cela, l’équipe Data a ajouté Atlan qui est une solution de catalogue produits. Cette solution assure la documentation du glossaire, ainsi qu’un suivi de la structure des tables et du lignage des données.
Le défi d’instiller la culture Data dans les équipes
Pour construire le succès d’une approche Data Mesh où les collaborateurs sont considérés comme des Data Citizens, il faut que ces derniers adhèrent à la démarche. De nouveaux rôles ont été créés dans les équipes. Dans les Feature Teams, le rôle de Data Owner est porté par le Product Manager. Il est responsable de la définition, de la qualité et de la gouvernance de la donnée et des Data Products que son équipe va produire.
Les développeurs sont autonomes dans le développement des Data Products
Cette équipe doit aussi identifier les nouveaux besoins pour enrichir les outils en place. Le rôle des Data Engineers de l’équipe est de développer et de maintenir la Data Platform et ses outils. Ils doivent aussi accompagner les Feature Teams dans l’implémentation technique de leurs Data Products.
Une matrice de maturité pour chaque équipe
Pour mesurer l’adoption de cette approche par les différentes équipes, la DSI de La Centrale a mis en place une matrice avec 5 axes et 4 niveaux de maturité possibles par axe. L’action de chaque équipe est mesurée avec cette matrice qui comprend un axe pour la qualité des données, un axe pour les métadonnées, puis le modeling et le design, l’architecture et le volet de Data protection.
“Un process interne a été mis en place afin d’aider les équipes à monter en maturité”
L’approche est très formalisée, mais elle présente des défauts reconnaît Thomas Berger. Passer d’un palier à un autre est très difficile, et stagner au niveau 1 peut être décourageant pour les équipes. « L’investissement pour passer du niveau 1 au niveau 2 est très important » expose-t-il. « Nous allons certainement revoir cette approche, créer des paliers intermédiaires pour mieux voir les évolutions » réfléchit-il.
Un catalogue des produits Data à venir
Pour le futur, le CTO compte mettre en place un Data Products Catalog : « Pour l’instant, il reste assez compliqué de retrouver les Data Products et de consulter leur définition » pointe-t-il. Une solution est nécessaire. « Nous devons chercher une solution pour être sur que chacun connaisse bien les Data Product qui sont à sa disposition » préconise-t-il.
“Maintenant, nous devons l’ouvrir au commerce, au marketing, à la finance”
Pour le responsable, le plus important dans cet élargissement du périmètre reste l’évangélisation. « Tout le monde sait maintenant que la Data, c’est important, mais il faut préparer le futur. Avoir de la bonne donnée demande du temps, et avant d’aller vers l’IA génértive, il faut avoir des données de qualité. Cela demande du temps » établit-il.
Développement de 3 à 4 produits Data par mois
Actuellement, les équipes développent de 3 à 4 Data Products par mois et un gros travail reste à faire pour transformer les sources de données en Data Products. On relève que la montée en qualité de l’ensemble des données va demander des années de travail pour l’équipe Data et les Data Citizens de La Centrale. Mais l’entreprise n’a pas le choix. « Nous sommes une boite de Data. Toute notre valeur ajoutée repose sur notre capacité à collecter et analyser de la donnée pour créer des produits » déclare en conclusion Thomas Berger.
Merci pour cet article très éclairant dans la mise en œuvre d’une stratégie datamesh.
Il devient tellement rare de lire des articles de fond qui n’enchainent pas les redites et paraphrases liées à l’utilisation abusive de l’IA générative pour produire du contenu…