EXPERIENCES PROFESIONNELLES
Société Générale – Lead Data Scientist - Data Engineer - Data Ops — 2021-2022
Projet ; Mise en place de solutions Data science et Big Data pour la direction Risque Opérationnel et Contrôle Interne de niveau 1 et 2
1.[Data Engineering] - [Data OPS]
Développement complet de la CI/CD
Collecte, Stockage et Transformation de Golden Sources (70 Flux journaliers)
Mise en place d'une solution de Data Quality afin de garantir l'étanchéité entre les sources et le Lake
Conception et mise en production d'un Framework Data Monitoring permettant de suivre/statuer les différentes pipelines.
Conception et mise en production d'un pipeline de streaming pour l'ingestion en temps réel d'événements provenant d'une IHM sur le Lake.
Conception et mise en production d'un Framework Data Versioning. Utilisé pour historiser les données, prenant en compte l'évolution des structures.
Migration de Data Lake Hortonworks vers Cloudera.
Conception et mise en production d'un Framework Data Audit permettant une comparaison précise entre deux tables provenant de sources diverses et variées. Utilisé pour générer un Delta sur un flux stock et comme outil de Non-Régression
Conception et mise en production d'un Framework Data Table Manager. Outil générique permettant de créer, transformer, déplacer des données depuis des sources diverses et variées.
Conception et mise en production d'un Framework Data Habilitation. Outil générique permettant de gérer les habilitations des dashboards.
Environnement technique : Spark , scala , maven, MLflow , Jenkins , ansible , nexus , kedro, hive , oozie , scala , coordinateur , git webhook, jenkins trigger, jenkins-ansible call,
groovy ansible playbook.
2.[Data Science] - [Data OPS]:Responsable de l'industrialisation des use cases Data Science et de leur transformation en produits Data Science
Fournir un ensemble d'outils pour concevoir des modèles et des techniques de science des données afin de maintenir efficacement ces modèles et d'automatiser le déploiement dans des environnements de production à grande échelle.
Diriger et animer la communauté Data Science pour identifier les besoins des utilisateurs, partager les meilleures pratiques et développer l'adoption de notre plateforme Data Science.
En charge de la construction de la documentation utilisateur et de l'accompagnement des Data Scientists depuis la définition du modèle jusqu'aux étapes d'industrialisation.
Création des environnement virtuel python conda
Gestion des expériences et des models MLflow.
Transformation des notebook en projet Kedro
Participation aux réflexions d'industrialisation de projets python
Conteneurisation d’une application python: Docker
création des kernels Jupyter à partir d'environnement conda
Environnement technique : Spark , Pyspark , MLflow , Jenkins , ansible , nexus , kedro, hive , oozie , scala , coordinateur , Conda env, jupyter kernels, docker.
MNH – Ingénieur Data Confirmé — 2020
Projet : Audit, expérimentation et industrialisation d’une application interactive permettant de prédire et gérer l’attrition ou la perte de clients (churn marketing)
1. [Data Engineering]
Création du jeu de données : la jointure entre les fichiers annuels : Personne, Prestation, Contrat.
Préparation de l’environnement.
Traitement des données via une grande jointure
Utilisation de Mapjoin sur Hive ou bien on développe un script python itératif qui fait de la jointure optimisée en faisant attention à la mémoire vivante de l’instance
Uniformisation des données.
Stockage des données sous forme d'une table Hive.
2. [Data Science]
Développement d’un modèle de prédiction en comparant les résultats avec la taille des données d'entraînement
Rédaction d’un descriptif de différentes colonnes de la table (après jointure) pour avoir une idée détaillée sur les données possédées
Développement d’un modèle de prédiction sur un échantillon (un bon échantillonnage des données annuelles)
Augmenter le volume de données jusqu’à ce que la précision reste stable (robustesse du modèle) [MLlib de Spark]
Appliquer les mêmes étapes au données textuelles des emails et croisement des résultats
Agrégation par axe d’analyse et calcul des indicateurs de performance
3. [Data Visualization]
Création d’un tableau de bord / application pour prédire la perte de clients pour les années future
Implémentation du Dashboard en se basant sur Dash
Commencer par un Template dash
Intégration du code pour les graphiques créés créé sur Cloudera
Proposer des axes d’analyses développés sur Cloudera
4. [Industrialisation]
Création d’un tableau Dash et d’une image docker
Création de l’image docker
Packager la solution (création de la partie config)
Créer une image docker avec (en ligne de commande)
Faire le lien informatique entre les trois parties (data Eng, data science et data Viz)
Automatisation du processus, afin de traiter les données générer par les SI
Mise en production sur Cloudera
Environnement technique : Cloudera, Cloudera Data Science Workbench, Spark, Hive, Jupiter, Docker
Ividata –Data Scientist Confirmé/ DevOps — 2020
Projet : Conception et Implémentation d’une application permettant de capturer des flux vidéo, identifier des objets à l'aide des services Amazon, puis déclenchez des actions ou des notifications en fonction des objets identifiés, le tout avec une faible latence.
Développement d’une interface web local en utilisant Dash Python pour charger les vidéos sur S3.
Création d’un processus automatique (AWS Lambda, SNS, SQS) de détection des vidéos chargé sur S3 pour lancer l’analyse en utilisant le service Amazon Rekognition
Structuration des données reçues d’Amazon Rekognition
Création d’un système de notification (SNS) pour notifier l’utilisateur d’état d’analyse de la vidéo chargée
Environnement technique : Python, Amazon Web Services
Unédic (assurance chômage) – Data Scientist/ Data engineer Confirmé — 2019-2020
Projet : Conception et implémentation d'un tableau de bord dynamique incluant la mise à jour de KPIs calculés dans le but d’améliorer le suivi de l’évolution du chômage en France.
.
Participation à des réunions du brainstorming avec toute l'équipe d’unédic pour proposer des cas d’usages
Identification des axes et l'élaboration des indicateurs de performance.
L'optimisation et la modélisation des KPI existants
Exploration des données brutes (cleaning)
Proposition d’améliorations du flux d’intégration de données.
Développer un tableau de bord financier qui fournit aux utilisateurs une représentation visuelle instantanée des indicateurs de performance clés financiers pour le programme de compteur numérique.
L'Etude, la réalisation et la conception d'un tableau de bord qui permet le suivi de la performance des agences d’Unedic
Ecriture d’un manuel d'utilisation du l’application
Etapes du projet : Planification, cadrage et collection des données, spécification fonctionnelle, spécification technique, développement, tests d'acceptation, déploiement et l'écriture de manuel d'utilisateur.
Compétences développées : conduite de projet, data mining, reporting, extraction des données des entrepôts de données, modélisation, pilotage, l'identification et le calcul des KPIs et la Data viz.
Environnement technique et fonctionnel : Python / R, Cloudera Data Science Workbench (CDSW )
EDF SEI– Data Scientist— 2019
Projet : EDF SEI déploie des compteurs communicants générant un volume important de données dont le traitement a pour objectif d’améliorer l’information clients et proposer de nouveaux services.
Travail sur 4 projets de Data science sur la période.
1/ Transformation des adresses postales des compteurs numérique en des cordonnées géographique.
Création d’une base de données d’adresses postales des communes en utilisant le Data Scraping des annuaires de mairie [les droits d’utilisation de données sont vérifiés]
Correction automatique des adresses postales de la base de données initiale avec la base d’adresses postales scrapées.
Géocodage des adresses corrigées en utilisant l’API data.gouv
Evaluation du résultat avec les scores de géocodage de l’API
Création du tableau de bord des résultats sur Tableau Software
Environnement technique : Tableau Software, python
2/ Concevoir un outil de détection statistique de la fraude en service client
Conception des scores pour quantifier les différents types de fraude
Création des Meta data pour chaque opération de remboursement entre EDF et le client (Feature engineering)
Nettoyage et normalisation des données générées
Regrouper les scores générés (clustering)
Publication des résultats sous forme de tableau de bord en réseau
Environnement technique : Tableau Software, Tableau Server, python
3/ Développement d’une représentation visuelle avec mise à jour instantanée des indicateurs de performance financiers clés
Création d’une base de données, contenant les différentes sources de données (flat file , Excel , base de données Oracle ) nécessaire au projet
Création de la dimension temporale des données
Création d’un système de paramétrage du calcul des KPI
Vérification des calculs intégrés dans le tableau bord
Mise en production du tableau de bord sur les serveurs de Tableau Server
Environnement technique : Tableau Software
4/ Création d’un outil d’optimisation tarifaire permettant aux chargés de clientèle de grands comptes de proposer une tarification « personnalisée ».
Création d’un modèle d’optimisation tarifaire respectant les règles de calcul de facturation imposée par la Commission de régulation de l'énergie (CRE)
Implémentation de la solution sur VBA Excel
Fonctionnalité de la solution :
Importation des données client : courbe de charge, les puissances souscrites
visualisation de la courbe de charge
simulation de la facture avec le choix l’option du ta...