Rencontre avec Trâm Vo, Data Wrangler

Publié le 14/04/2021

Data & AI Stories, meet the expert : c’est quoi un Data Wrangler ?

 


La donnée et l’intelligence artificielle (IA) sont au cœur de notre stratégie de transformation digitale et servent nos trois priorités stratégiques : la centricité client, l'efficacité opérationnelle et la responsabilité. Aujourd’hui, avec un portefeuille de plus de 250 cas d’usages Data et IA en production, nous confirmons notre capacité à nous transformer.

L’enjeu pour Société Générale est maintenant d’accélérer cette transformation, notamment en s’appuyant sur des équipes d’experts pluridisciplinaires, capables de construire rapidement des solutions Data & IA performantes et créatrices de valeur.

Ce sont ces experts que nous avons choisi de vous présenter pour comprendre leurs métiers, découvrir leurs parcours et comment ils participent à la transformation digitale en marche au sein de notre Groupe. Après Marion Cabrol, Data scientist au sein du Digital Office de la banque d’investissement, nous avons rencontré Trâm Vo, Data Wrangler dans l’équipe Modèle et Data Science de la Direction des risques.

Trâm, comment expliquerais-tu ton métier « pour les nuls » ?

Le Wrangler est un cow-boy, celui qui est chargé de rassembler son troupeau. Le Data Wrangler est donc cet expert qui rassemble les données hétéroclites pour les transformer et les ranger dans des bases de données normalisées pour les utilisations spécifiques des métiers : reportings avec de gros volume de données hétérogènes, cartographies de données pour répondre à des besoins métiers, data set de référence pour des modélisations et de la recherche sur les données de grande taille.

Comment es-tu devenue Data Wrangler ?

Avant de devenir Data Wrangler j’ai été analyste crédit en Back Office au sein de la banque de détail en France et puis à l’international, j’étais en lien direct avec les clients, des fonctions que j’ai occupées pendant 10 ans ce qui m’a permis d’acquérir des connaissances bancaires bien au-delà de l’octroi de crédit.

Parce que je manipulais beaucoup de données, j’ai constaté que les moyens à notre disposition devaient progresser pour fluidifier nos prises de décisions dans l’octroi de crédit. C’est ce constat qui m’a donné envie de comprendre le cycle des données depuis leur source, leur alimentation, mais aussi contribuer à leur meilleure utilisation.

En 2016, j’intègre l’équipe de pilotage transversal des risques à la direction des Risques en tant que « Préparatrice de données ». Là, je me perfectionne en croisant mes connaissances bancaires avec la manipulation de données au sein d’une équipe orientée Data, principalement au service de la communication financière : nous faisions déjà du Data Wrangling sans même le savoir !

Cinq ans plus tard, la fonction est reconnue et je suis à présent Data Wrangler dans la toute première équipe de Data Wrangling créée chez la Direction des risques.

Quel est le rôle du Data Wrangler et quelles sont tes principales activités ?

Dans le cadre d’un projet de Data ou d’IA, le Data Wrangler est responsable de la préparation des données ou « Data Preparation » en anglais. Préparer les données nécessite de passer par plusieurs étapes.

Tout d’abord, je recherche et récupère les données utiles au projet dans les systèmes internes, on appelle cette étape la collecte des données ou « Data collection » en anglais. Je m’assure ensuite de l’exhaustivité et du rationnel des données collectées, c’est l’étape de contrôle qualité des données « Data Quality Check ». Après cette étape, j’entre dans la phase de transformation des données pendant laquelle je structure les données et applique éventuellement des filtres « Data Transformation ». La dernière étape consiste à garantir la traçabilité des données utilisées et transformées, je rédige pour cela une documentation claire « Data Audit Trail ».

Si des modifications surviennent au cours du projet, le Data Wrangler est amené à moduler ses opérations de manière agile en lien avec les acteurs du projet : nous faisons du « sur mesure ».

Quels sont les autres métiers Business, IT et Data science avec lesquels tu collabores au sein du Groupe ?

Nous collaborons avec tous les métiers car chacun peut être une source de données pour les projets surtout quand ces données ne sont pas encore disponibles en central : c’est alors le métier qui permet l’accès aux données.

Quand les données sont centralisées et mises à disposition, c’est avec l’IT que nous collaborons pour extraire les données dont nous avons besoin.

Une autre équipe avec laquelle nous coopérons, et que nous rejoindrons bientôt, est le Digital Transformation Office de la Direction des risques : nous travaillons ensemble sur des projets de récupération de données de manière plus agile.

Peux-tu nous partager un projet sur lequel la collaboration d’un Data Wrangler est déterminante ?

Le programme Haussmann est un projet d’envergure au niveau du Groupe, lancé en Septembre 2019 sur demande du régulateur. L’objectif de ce programme est de simplifier la structure de nos modèles internes de calcul de risques (IRB). Il est coordonné par l’équipe de management des modèles de risque.

Le Data Wrangler joue un rôle déterminant dès le démarrage du projet. Nous sommes au cœur de l’équipe et prenons part aux discussions stratégiques pour co-construire avec les autres acteurs une roadmap cohérente et réaliste : remonter les contraintes techniques, mettre en place des règles de gestion Métiers, organiser les données « clusterisées », …

Notre intervention est essentielle pour le bon déroulement de la préparation des données qui s’ensuit, et chaque itération est qualitative et utile pour l’avancement du projet.

Tous les cas d’usage de Data & AI font ils appel à un Data Wrangler ?

Oui, nécessairement. Le Wrangling est une étape préliminaire et incontournable. Elle est réalisée de manière plus ou moins consciente par les Data users. Et plus les jeux de données sont volumineux, plus la fonction Wrangling est importante.

Comment vois-tu l’évolution de ce métier dans le Groupe ?

A présent, la transformation digitale en cours au sein du Groupe met l’accent sur les métiers en lien avec la manipulation de la donnée. Notre équipe se développe fortement, les recrutements continuent en 2021 et des relais sont créés dans certains services grâce au compagnonnage pour mieux absorber les besoins comme par exemple avec l’équipe d’analyse du portefeuille de crédit sur les clients non retail.

Le Data Wrangling est une expertise qui se retrouve partout et dont les pratiques sont applicables à tous les métiers du moment qu’on peut accéder aux données. A terme, l’idée est bien-sûr de professionnaliser chaque équipe pour que le Data Wrangling puisse se propager à tous les niveaux.

A ton avis, quelles sont les compétences requises pour devenir Data Wrangler ?

Il n’existe pas de profil type pour devenir un bon Data Wrangler. Au contraire la pluridisciplinarité est un atout majeur au sein de l’équipe.

Selon moi il existe 5 atouts pour devenir Data Wrangler :

  1. Savoir cultiver son esprit collaboratif : on ne travaille jamais seul dans son coin, mais toujours en équipe
  2. Mettre à profit son esprit logique : savoir raisonner de manière logique, être méthodique et agile
  3. Disposer de solides connaissances bancaires : c’est un atout majeur car pour bien ranger les données il faut avant tout bien les comprendre.
  4. Être curieux : selon son profil, soit plus bancaire soit plus « Data Oriented », si l’on est curieux on peut équilibrer son profil en s’imprégnant de la pluridisciplinarité de l’équipe, tout le monde profite de compétences complémentaires et ça tire l’équipe vers le haut.
  5. Avoir des connaissances en code : nous disposons aujourd’hui de nouvelles plates-formes performantes dans la Data Preparation comme Alteryx et Dataiku. Ce sont des outils puissants qui révolutionnent notre travail et permettent de s’affranchir un peu de la technicité du langage informatique mais savoir coder reste un réel atout pour manipuler les données.

Au final, le Wrangling c’est surtout savoir se questionner sur la qualité des métriques utilisées, et bien traduire le besoin client