Expérience professionnelle
Octobre 2023 –Aujourd’hui
TECH LEAD DATA SAINT GOBAIN
Projet Mise en place d’une plateforme permettant l’ingestion de données
externes ( Applications cybersécurité,…) dans le cloud Azure et Snowflake
pour des besoins BI et Big Data.
Taches effectuées - Mise en place de l’architecture
- Cartographie des flux de données.
- Ingestion des données des sources externes dans ADLS
- Transformation des données
- Industrialisation/Automatisation des pipelines de données E2E
- Optimisation de la performance des traitements (Jobs Spark)
- Création et gestion des catalogues (Unity Catalog)
- Provisioning des espaces de travail et des ressources
- Implémentation des tests unitaires
- Ingestion des données externes dans Snowflake
- Set up des Repos Git pour Azure Data Factory , Azure Databricks et
Snowflake.
- Automatisation et industrialisation des pipelines CI/CD avec Azure
Devops
- Sécurité des données
- Création des Dashboard Power BI
- Gestion des Déploiement – Mise En Production
- Monitoring des flux (suivi d'exécution, alerting, logs, metrics)
- Coacher l’équipe Data et Revue de code
Environnement technique Cloud Azure, Databricks, Azure Fabric, Azure DevOps, Azure Data Lake
Gen2, Key Vault, Git, Azure Data Factory,dbt, Snowflake, APIM, Power BI
desktop, Power BI services
Juillet 2023 – Septembre
2023
SENIOR DATA ENGINEER
TECHNIP ENERGIES
Projet Mise en place d’un socle permettant l’ingestion de données externes
(MDM EBX,Oracle,ERP … ) dans le cloud Azure pour des besoins BI et Big
Data.
Taches effectuées - Mise en place de l’architecture
- Ingestion des données des sources externes dans ADLS
- Transformation des données
- Industrialisation/Automatisation des pipelines de données E2E
- Optimisation de la performance des traitements (Jobs Spark)
- Implémentation des Tests unitaires
- Création des vues Synapse (Serverless)
- Gestion des Déploiement – Mise En Production
- Monitoring des flux (suivi d'exécution, alerting, logs, metrics)
- Création des Dashboard Power BI
Environnement technique Cloud Azure, Databricks, Azure DevOps, Azure Data Lake Gen2, Key Vault,
Git, Azure Synapse, Delta Lake, MDM EBX, APIM, SAP, Power BI desktop,
Power BI services
Oct 2021 – Juin 2023
SENIOR DATA ENGINEER EDENRED (SA)
Projet Mise en place d’un socle permettant l’ingestion de données externes
(SalesForce, Zuora, Azure SQL Database ,ServiceNow … ) dans le cloud
Azure pour des besoins BI et Big Data.
Taches effectuées - Mise en place de l’architecture
- Cartographie des flux de données.
- Rédaction des spécifications techniques
- Collecte du besoin
- Ingestion des données des sources externes (Salesforce,Zuora,…)
dans ADLS
- Ingestion des données de ServiceNow (Base Tables , Custom
Tables, Extended Tables) dans ADLS
- Transformation des données
- Industrialisation/Automatisation des pipelines de données E2E.
- Optimisation de la performance des traitements (Jobs Spark)
- Implémentation des Tests unitaires
- Création des vues Synapse (Serverless)
- Création des Dashboard Power BI
- Set up des Repos Git pour ADF, Databricks et Synapse.
- Implémentation et industrialisation des pipelines CI/CD pour ADF,
Databricks et Synapse avec Azure Devops
- Gestion des Déploiement – Mise En Production
- Monitoring des flux (suivi d'exécution, alerting, logs, metrics)
- Implémentation d’un algorithme de Matching entre les données
SalesForce et les données des transactions effectuées par les
cartes de paiements afin de détecter des nouveaux prospects.
- Migration des données de CRM de chaque BU dans SalesForce en
utilisant ADF et Databricks.
Environnement technique Cloud Azure, Databricks, Azure Data Factory, Azure DevOps, Azure Data
Lake Gen2, Key Vault, Git, Azure Synapse, Delta Lake, Salesforce,
Zuora,ServiceNow, Azure Event Hubs, Azure Function, Power BI desktop,
Power BI services
Mai 2021 – Sept 2021
SENIOR DATA ENGINEER PERNOD RICARD
Projet Mise en place d’un socle qui permet d’ingérer de données externes
(Oracle, SQL Server, FTP, …) dans le cloud Azure pour des besoins Data
Science.
Taches effectuées - Rédaction des spécifications techniques
- Cartographie des flux de données.
- Ingestion des données des sources externes dans ADLS et
Snowflake.
- Nettoyage de données.
- Optimisation de la performance des traitements (Jobs Spark)
- Implémentation des Tests unitaires
- Industrialisation/Automatisation des pipelines de données
- Automatisation de la création des schémas et des tables dans
Snowflake
- Automatisation de la gestion de la sécurité (Service Account, Rôle ,
Permission) dans Snowflake
- Mise en place d’un outil automatique qui permet aux Data
Scientists d’ingérer des fichiers csv présents dans ADLS dans des
tables Snowflake
Environnement technique Cloud Azure, Azure Databricks, Azure Data Factory, Azure DevOps, Azure
Data Lake Gen2, Azure Blob Storage, Key Vault, Snowflake, Git, Jira
Jan 2021 – Avr 2021
SENIOR DATA ENGINEER BPIFRANCE
Projet Mise en place d’un socle qui permet d’acquérir, transformer et exposer
les données du comptoir Finance et Risques dans le cloud AWS pour des
besoins Data Science et reporting règlementaire.
Taches effectuées - Mise en place de l’architecture
- Cartographie des flux de données.
- Rédaction des spécifications techniques
- Réalisation / développement de ce socle
- Ingestion des données dans S3
- Utilisation de l’ELT Matillion sur Redshift
- Nettoyage des données
- Import des données dans des tables Athéna
Environnement technique AWS Glue, AWS Athena, AWS Redshift, Matillion, Git, AWS Codecommit,
AWS S3
Jan 2020 – Jan 2021
SENIOR DATA ENGINEER EDF HUB
Projet Participation à la mise en place d’un socle applicatif orienté data
intelligence qui permet d’acquérir, transformer et exposer les données au
sein d’EDMA pour les besoins de BI (CUPIDON Recou / Stromae / MyClient
/ etc) au sein d’un cluster Hadoop
Taches effectuées - Rédaction des spécifications techniques
- Maintien des chaines de traitements en temps réel (Kafka/Spark
Streaming)
- Développement des traitements des données en mode batch
- Création des jobs d'ingestions de HBase vers Hive avec Spark/Scala
- Enrichissement des données Hive
- Transfert des données du Hive vers Sql Server via Sqoop
- Optimisation de la performance des traitements (requêtes HQL,
jobs Spark,...)
- Packaging / déploiement du socle
- Tests unitaires
Environnement technique HBase, Hive, Spark, Sqoop, SQL Server, SQL Developer, Scala, Hadoop,
HDFS, Git, Jenkins, Kafka, HQL, Shell, Maven, Ansible, Nexus
Avr 2019 – Déc 2019
SENIOR DATA ENGINEER /
DATA SCIENTIST
AIFE
Projet Mise en place d’un outil intelligent qui permet à l’AIFE de détecter les
factures en erreur/fraude au sein d’un cluster Hadoop
Taches effectuées - Ingestion des données
- Cleansing des données
- Mise en place du modèle : Création du pipeline de machine
Learning
- Optimisation de la performance des jobs Spark
- Industrialisation des jobs Spark
- Tests unitaires
- Ordonnancement des traitements
Environnement technique Hadoop, Spark, Shell, Git, Jenkins
Mar 2018 – Mar 2019
DATA ENGINEER / DATA
SCIENTIST
BNP PARIBAS
Projet Création du One KYC Repository afin de prendre en charge la
mutualisation de données KYC, la réglementation et la fiscalité dans
l’ensemble de la banque.
Taches effectuées - Intégration des données
- Cleansing de données et qualité de données
- Analyse de données
Environnement technique Oracle, SQL Developer, PL/SQL, Python, bat
Mar 2017 – Fév 2018
DATA ENGINEER / DATA
SCIENTIST
TELECOM ITALIA
Projet Segmentation des clients de Telecom Italia afin d’étudier leurs
comportements et prédire leur attrition.
Taches effectuées - Collecte et nettoyage de données
- Exploration de données
- Segmentation de la clientèle
- Prédiction de l’attrition de la clientèle
- Optimisation de la performance des traitements (Jobs Spark)
- Mise en place de Dashboard via Power BI
Environnement technique Microsoft Azure, Microsoft Azure Machine Learning, Azure Databricks,
Azure Blob Storage, Power BI
Oct 2016 – Fév. 2017
DATA ENGINEER / DATA
SCIENTIST
EDF (SUPPLY CHAIN)
Projet Conception d’un outil Analytique qui doit permettre à EDF d’optimiser son
stock de pièce de rechange et ses achats
Taches effectuées - Collecte de données
- Nettoyage de données
- Design des algorithmes Machine Learning (Times Series Models)
- Amélioration des modèles de prévisions
- Tests unitaires
Environnement technique Microsoft SQL Server, Python, Jupyter, Azure, Transact-SQL
Juil 2016 – Sept 2016
DATA ENGINEER / DATA
SCIENTIST
AVANADE
Projet Construire un moteur de recommandation afin de choisir la typologie des
séries qui ont le plus succès au sein d’un cluster Hadoop
Taches effectuées - Collecte de données (Scraping du site web « Allociné »)
- Collecte de données de Twitter via Talend Big Data
- Stockage de données dans HDFS
- Indexation et structuration de données en utilisant HBase
- Machine Learning (Statististiques Descriptives, Réduction de
dimension, K Means, Text Mining)
- Reporting
Environnement technique Spark, Talend Big Data, HDFS, Hbase, Power BI
2012 – 2015
INGENIEUR DE RECHERCHE CEA
Projet Etude de la robustesse des codes dans le cadre de stockage des déchets
nucléaires
Taches effectuées - Tester la robustesse des codes éléments finis.
- Analyse des données générées par les codes.
- Rédaction des livrables et des articles dans des revues
internationaux.
- Présentations orales en conférences et meeting internationaux
Environnement technique Linux, R, Python, Crunch, Hytec