Expérience professionnelle
Depuis 02/25 : Tech Lead Data/Ops : Le Figaro
Contexte :
− Lead tech d’une équipe de Data ing
− Moderniser la plateforme data et intégration des standard Dev / Ops / Infra
− Organiser les flux de développement entre les Devs
Réalisation :
− Migration de l’infrastructure AWS sur Terraform
− Introduction du concept CDC dans le monitoring des flux données
− Pipeline CICD pour le CDP (Customer data platform) Treasure Data
− Pipeline CICD pour les flux AWS EMR Spark / S3 / Snowflake / Airflow
− Migration Framework Spark scala custom vers Pyspark
− Introduction des Tests d’integration et Tests unitaires
− Migration Talend vers DBT
Environnement : Python, Scala, Shell, Spark, EMR, Snowflake, Talend, DBT, AWS, S3, Bitbucket,
Terraform, Airflow, digdag, Tableau
04/24 - 02/25 : Senior Data Engineer / MLOps : Mirakl
Contexte :
− Intégration automatique des catalogues sur les marketplaces Mirakl a l’aide des LLM
− Data platform bronze/silver/gold en CDC
Réalisation :
− Ingestion des catalogues en streaming avec kafka et spark dans des tables delta
− Lancement des batch spark de traitement de catalogue en cdc et cdf
− Traitement des catalogue et extraction des données via des appels MLFlow a plusieurs models
ML
− Optimisation des temps de prédiction MLFlow avec spark en redéfinissant l’appels aux models
via des udfs spark
− Migration de setuptools vers poetry
− Développement des actions github pour le déploiement, les benchmarks, TU et TI
− Développement de traitement batch et streaming pour la data platform
Environnement : Python, Scala, Shell, Spark, Databricks, MLFlow, Delta, Kafka, AWS, S3, Github,
Sentry, Terraform, Datadg
11/22 - 04/24 : Senior Data Engineer : Banque De France
Contexte :
− Expertise Hadoop/PySpark et développement de chaines ETL sur Airflow.
− Architecture et mise en place des pipeline CI/CD.
− Mise en place des normes et outils de qualité de code Python.
− Maintenance de l’infrastructure Airflow sur OpenShift/Kubernetes.
Réalisation :
− Développement de dags Airflow pour l’ingestion et la transformation de plusieurs types de
données (XML complexes, CSV, Parquet, TXT par bloc, NetCDF, Json, APIs Twitter et
Factiva) avec python, Spark, Hadoop (HDFS, Hive, HBase) avec des volumétries pouvant
varier de 100GO a 4TO
− Ingestion des données Twitter et Factiva en temps réel et élaboration d’indicateurs d’inflation
basé sur un algorithme ML avec Tensorflow, Scikit Learn, Pyspark
− Traitement de larges volumétries (4TO) des données météo DRIAS au format NetCDF.
− Développement de plusieurs InputFormat personnalisé pour Hadoop (blocs de text, NetCDF)
− Gestion de l’infrastructure Airflow sur Kubernetes/OpenShift et Vault, implémentation d’image
docker custom
− Mise en place de pipelines Jenkins/XLDeploy pour la CI/CD
− Mise en place des tests unitaires avec Unittest et des normes de qualité de code avec
Flake8, Mypy et Pydocstyle
− Mise en place de librairies python (monitoring, connexion APIs, déchiffrage GPG ...)
05/21 - 11/22 : Senior Data / Cloud Engineer / Tech Lead : Sitel
Contexte :
− POC pour un cluster Hadoop sur Docker pour un use case ETL/BI à partir des bases de
données client mono-tenant.
− Architecture et implémentation d’une solution Data sur le Cloud AWS.
− Évolutions et maintenance de la partie Dashboard et Reporting d’une application web.
Réalisation :
− Production de KPI et de Dashboards sur un projet web monolithique de gestion de centre
d’appels et des activités des téléconseillers.
− Création d’une plateforme Analytics basée sur Docker, Swarm, Hadoop, Hive, Kafka, Sqoop,
Spark
− Architecture de la platform Analytics cible sur AWS (S3, EMR, Glue, Athena, Redshift, Kafka
Confluent)
− Implémentation d’un Producer pour Kafka Confluent sur la partie server d’une application web
− Développements de Jobs sur Spark/EMR pour stockage des données de kafka vers S3
− Exploration ad-hoc des données via Athena
− Jobs Spark sur EMR/Spark pour la création des KPIs
− Jobs Glue et Lambda pour l’homogénéisation et anonymisation des données sur S3
− Implémentation et maintenance des pipeline Gitlab-ci.
Environnement : Scala, Python, Java, Spring, Shell, Hadoop, Hive, Spark, Airflow, Elasticsearch,
gitlab-ci, Sonar, Docker, AWS (Athena, S3, Redshift, Glue, EMR, Lambda), Kafka
08/19 - 05/21 : Expert Big Data / Tech Lead : Société Générale
Contexte :
− Mise en place et évolution d’un Framework de préparation et d’ingestion de données de
control interne et de risques opérationnels dans le Datalake pour le projet DPC
− Créer une data platform suivant le modèle Source View, Business View, Shared Usage View
Réalisations :
− Conception et développement d’un Framework d’ingestion de données avec Spark et Scala
− Automatisation des jobs Spark via des Workflow et Coordinator Oozie
− Paramétrage de la solution avec des Templates Jinja
− Mise en place d’une chaine CI/CD avec Jenkins, nexus, ansible, Tower, AWX, Jinja, Python
− Export des données sur SQLServer et Dashboards sur Power BI
− Dashboards sur Power BI via Presto
− Automatisation des monitorings des jobs Spark
− Mise en place d’un moteur de règles pour l'évaluation des contrôles (algorithme Machine
Learning)
− Pilotage de l’équipe data ingénieurs DPC
Environnement : Spark, Scala, Hive, Hadoop, Oozie, Gitlab, Jenkins, Nexus, SQLServer, Oracle,
Java, Shell, Tower, AWX, Ansible, Presto, Azure
09/18 – 08/19 : Expert Big Data / Tech Lead big data : EDF
Contexte :
− Développement et extension d’un Framework interne (Sparktimus) pour l’ingestion et la création
de workflows ETL via Spark et Oozie.
− Architecture et développement du socle technique de l’équipe Datawarehouse dont le but est la
transformation des données OME (objets métiers EDF) et leur acheminement vers l’équipe de
Reporting.
Réalisations :
− Extension du Core du Framework basé sur le principe d’un data Node (extension d’une Map)
et JXPath
− Développement de la partie de gestion Workflow
− Développement des partie Middleware pour les fonctions filtre, mapping, reduce
− Développement des partie Input/Output pour Hdfs, HBase, Hive, Kafka, Elasticsearch, SQL
− Architecture de la solution Datawarehouse basé sur HBase et Hive et Sparktimus
− Développement Socle technique Datawarehouse
− Mise en place du processus de déploiement des livrables Datawarehouse
− Correctifs sur des chaines en production.
− Amélioration des solutions existants et développement d’outils d’optimisation
(Salting/Desalting des rowKey des tables Hbases existant pour mieux distribuer la charge sur
les regions servers, CustomTableInputFormat pour mieux lire une table HBase depuis Spark,
développement d’un middleware pour Spark et Hbase pour gerer les Cooprocessors et les
filtre custom coté serveur)
Environnement : Spark, Scala, Hive, Elasticsearch, Hbase, Kafka, HDFS, Oozie, Git, Jenkins, Nexus,
SQLServer, Oracle, Java, Shell, Gradle, Cucumber
04/17 – 09/18 : Tech Lead / Archi Big Data : Société Générale SGCIB
Contexte :
− Paramétrage des clusters Big Data pour répondre à une des problématique MPP et Real time
dashboarding
− Tech Lead pour le projet Activity & Risk Monitoring : conception et développement
Réalisation :
− Benchmark et configuration de Hawq comme solution MPP pour l’interfaçage en self BI avec
Tableau sur le Data Lake.
− Mise en place de l’architecture technique du projet ARM (Activity & Risk Monitoring) ainsi que
l’implémentation de son socle technique (Spark, Scala, Oozie, Hive, Hbase, Knox, Solr,
Tableau, PostgreSQL)
− Mise en place et implémentation du frontend du projet ARM (Spring Boot, Angular 4)
− Automatisation des phases de Build et Deploy du projet ARM avec Jenkins Pipeline
− Expertise sur Tableau en tant qu’outil BI sur un Data Lake Hadoop
− Installation et configuration des environnement (dev, uat et prod) et des serveurs (serveur
BDD, slave Jenkins, serveur web) pour le projet ARM
Environnement : Scala, Java, Shell, Hadoop, Hive, Hbase, Spark, Kerberos, Oozie, Solr, Sqoop,
Knox, git, Jenkins, Sonar, Angular, Spring, Groovy
04/17 – 09/18 : Tech Lead / Archi Big Data : Société Générale SGCIB
Contexte :
− Paramétrage des clusters Big Data pour répondre à une des problématique MPP et Real time
dashboarding
− Tech Lead pour le projet Activity & Risk Monitoring : conception et développement
Réalisation :
− Benchmark et configuration de Hawq comme solution MPP pour l’interfaçage en self BI avec
Tableau sur le Data Lake.
− Mise en place de l’architecture technique du projet ARM (Activity & Risk Monitoring) ainsi que
l’implémentation de son socle technique (Spark, Scala, Oozie, Hive, Hbase, Knox, Solr,
Tableau, PostgreSQL)
− Mise en place et implémentation du frontend du projet ARM (Spring Boot, Angular 4)
− Automatisation des phases de Build et Deploy du projet ARM avec Jenkins Pipeline
− Expertise sur Tableau en tant qu’outil BI sur un Data Lake Hadoop
− Installation et configuration des environnement (dev, uat et prod) et des serveurs (serveur
BDD, slave Jenkins, serveur web) pour le projet ARM
Environnement : Scala, Java, Shell, Hadoop, Hive, Hbase, Spark, Kerberos, Oozie, Solr, Sqoop,
Knox, git, Jenkins, Sonar, Angular, Spring, Groovy
06/15 – 04/17 : Tech Lead / Architecte Big Data : EDF
Contexte :
− Tech lead et développeur principal des solutions Big Data et Machine Learning BHC et
Hypster
− Intervention dans la standardisation des normes de programmation et d’intégration continue.
Réalisations :
− Cr...