Expérience professionnelle
(Fevrier 2023 - Aujourd’hui) Carrefour -Senior Data engineer
Conception de pipelines & Migration de la plateforme sur un environnement cloud
GCP.
Création de jobs d’ingestion de normalisation et de persistance de données dans
Gcs, Bigquery et Bigtable
Développement de jobs spark / KafkaStream pour des traitements en temps réel
(calcul des encours de commandes, stocks et transactions)
Développement de services et des routes d’API Scalatra / Java SpringBoot afin
d’exposer en temps réel les données au consommateurs.
Déploiement et Orchestration de workflows Ansible/jobs online avec Kubernetes.`
Modélisation de tables ( Bigtable, Bigquery) et Sizing des ressources pour
l’optimisation des coûts.
Mise en place des différentes stratégies de tests (unitaires, intégration, tests de
charges) et Mise en production.
Mots Clés : Google Cloud Platform, KafkaStream, Spark, Dataproc, Gitlab, K8S, Scala, Java,
Sql, Gcs, Bigquery, Bigtable.
(Mars 2019 - Fevrier 2023) BOURSORAMA -Lead Data engineer
Animation des ateliers avec l’équipe métier, recueil des besoins et spécifications
fonctionnelles.
Identification des sources de données et leur modélisation selon le use case
(analytique, opérationnel).
Conception et développement de solutions en streaming de détection de fraudes
en temps réel : Détection des prospects fraudeurs, des clients fraudés ainsi que les
différents mouvements clients frauduleux.
Migration de l'orchestration de Jenkins vers Airflow, Développement de DAGS tests
et mise en production.
Définition des différentes architectures des projets et refonte des architectures
existantes. (ELK, Spark Batch/Streaming, Kafka...),
Conception et mise en oeuvre des pipelines de données batch et temps réel et leur
orchestration sur GCP et on Prem.
Elaboration d'une stratégie de migration de données vers GCP dans le cadre d'un
projet ML d'analyse de données par clustering et de détection d'anomalies.
Développement et déploiement d'un feature store alimentant différents projets ML
autour de la fraude afin de baisser le volume d'alertes et améliorer leur précision.
Spark ML, Cassandra, HDFS, Airflow, Python.
Maintenance évolutive et corrective des différents projets : Optimisation des
applications Spark existantes, Garantie de la disponibilité des données entre les
différents environnements (PROD,UAT,DEV) ainsi qu’entre les différents DataCenters.
Conception et déploiement d'une architecture de DRP (disaster recovery plan) afin
de garantir une haute disponibilité des applicatifs.
Mise en place des différents Dashboards Grafana pour le monitoring.
Déploiement des pipelines de données et mise en production grâce à des outils de
« Continuous Delivery » tels que Jenkins, Airflow Nexus, Git, Stash.
Participation à l'application de la méthodologie Scrum et présentation des démos
lors des Sprint Reviews.
Mots Clés : Spark (Structured Streaming/Batch), Scala, Python, Hadoop, Google Cloud
Platform, Elastic, Grafana, Kafka, Cassandra, Nifi, Airflow, jenkins, Git, Agile (Scrum).
(Mar 2019 - Fevrier 2023) VAGANET -Manager BIG DATA
Responsable de la création et du développement de la practice « Data Intelligence »
regroupant les expertises BIG DATA et DATA SCIENCE.
Accompagnement d'une multitude de clients du CAC40 à mettre en place une
culture "DATA DRIVEN" au sein de leurs équipes.
Veille technologique, formation et accompagnement des consultants juniors et
seniors sur différentes technologies. Spark, GIT , Kafka, GCP, Scala, Python.
Définition des architectures, cadrage, conception, mise en place et lead des projets
DATA jusqu'à la livraison et la maintenance évolutive et corrective:
Gestion de carrière: entretien annuel, mise en place de formation, suivi de montée
en compétence, définition d'objectifs individuels et des évolutions possibles.
Entretiens technique, Validation des profils après la phase de sourcing, négociations
salariales et signatures de contrats.
Mots Clés : Google Cloud Platform, Kafka, Spark, Management, Python, Scala.
(AOU 2018 - FEV 2019) LISI AEROSPACE-Consultant Big DATA - GCP
Recueil et cadrage des besoins avec les demandeurs (IT ou métier), étude de la
faisabilité technique et fonctionnelle et estimation de charge.
Conception technique des solutions data à implémenter avec l'identification des
services GCP à utiliser.
Développement d'une solution de monitoring de l'usine en temps réel avec Data
flow, Pubsub, Bigquery et Data studio.
Développement de solutions techniques sur les composants Big Query, Data studio,
Composer, Cloudstorage et Terraform : modélisation en SQL des données,
automatisation.
Documentation technique des solutions implémentées.
Maintien du bon fonctionnement du périmètre data confié afin de garantir la qualité
de service.
Mots clés : GCP (BigQuery, Composer, Airflow,…), Dataflow, Terraform, Data Studio, Jira,
Confluence.
(sep 2017 - juil 2018) DATALAKE -Consultant Big DATA - Spark
Mise en place d'une solution Big Data qui a pour but de prédire l'attrition des
collaborateurs (Détection de Churn).
Animation de workshops avec l’équipe métier pour le recueil des besoins et la
rédaction des spécifications fonctionnelles.
Définition des différents KPIs et indicateurs à mettre en avant: nombre de jours
travaillés à la file, ratio nombre d’absences non justifiées/nombre total d’absences.
Extraction des données source, transformation, nettoyages et chargement vers
l'HDFS via SQOOP.
Transformation et chargement des fichiers CSV dans l’HDFS.
Préparation et extraction des données depuis Hive via Spark SQL et Spark
Dataframes.
Transformation, aggrégation et analyse des données via Spark et python.
Stockage des données enrichies et aggrégées dans HDFS et alimentation des
tables Hive.
Développement du rapport sous Power BI ( DAX ) permettant la prédiction de
l’attrition des collaborateurs.
Réalisation des tests fonctionnels et mise en production.
Présentation des démos lors des Sprint Review.
Mots Clés : Hadoop, Spark, Scala, HDFS, Hive, SQOOP, SQL, Power BI.
(Jan-Aou 2017) Doctolib -Data Analyst
Mise en place d’une solution d'aide à la décision permettant de mesurer la qualité
de l'intégration des données dans la base de données de Doctolib à partir des
différents ERP sources.
Animation de workshops avec l'équipe data et participation au processus
d’intégration des données depuis les différents ERP sources.
Identification des différents processus critiques à monitorer et à automatiser:
problème de double rendez-vous, duplication des données et complétude des
données patients.
Recueil des besoins techniques, étude des choix technologiques (benchmarking :
Qlik Sense vs Power BI) et participation à l'élaboration de la road map technique.
Définition des différents KPIs et validation avec les managers (Exemple: nombre de
numéros de téléphone renseignés par rapport au nombre de patients).
Modélisation des dimensions et table de faits et réalisation de la modélisation
souhaitée (modélisation en étoile).
Développement des différents tableaux de bord permettant de monitorer:
La qualité des imports de données effectués depuis les ERP sources vers la base
Doctolib.
La performance globale de l’équipe import: nombre d'imports faits par
personne/jour/pays, ratio imports valides/imports erronés.
Formation des managers et des membres de l’équipe "Import" à l’utilisation des
différents rapports en vue de l’amélioration de la performance globale .
Réalisation des différents tests fonctionnels via des simulations d’import.
Mise en production des dashboards développés
Pilotage des opérations de maintenance corrective et évolutive sur les rapports
existants.
Mot clés: PowerBI, PostgreSQL, SQL, Expression régulières, PuTTY, BalsamiqMockups.