Ingénieur Data
chez Véolia
mai 2024 - aujourd'hui
+ Mise en place d’une application python pour le monitoring du stockage Bigquery
Mise en place d’une application sous Flask/Cloudrun pour exposer les métadonnées des tables Bigquery des
différents projets dans des tables dédiées, et l’utilisation de ces tables nouvellement créées pour mettre en place un
Dashboard interactif sous Data Studio. (Flask, Cloudrun, Bigquery API, Python, Airflow, DBT)
+ Optimisation de la datapipeline Bigquery
Mise en place de strategies de Clustering et de partitionnement de tables volumineuses, et mise en place de chargement
incrémental sur DBT (Airflow, Python, Bigquery, SQL, DBT)
+ Mise en place d’une application sous Flask/cloudrun pour la mise à disposition de données de capteurs sur Bigquery
Mise en place d’une application qui permet de charger les données de capteurs sous format JSON depuis une API dédiée,
et utilisation de cloudfunctions pour charger les données de ces fichiers JSON dans des tables Bigquery. (Flask, Python,
Bigquery, SQL, CloudFunctions, GCS)
Environnement technique : Agile, Bigquery, Terraform, Cloud build, Cloudrun, DBT, Airflow, Python, Data studio,
Confluence, Flask, React, App Engine, Cloud Functions, GCS, Jira, Github, SQL, GCP, Docker, DevOps.
Ingénieur Data
chez Loreal
janvier 2023 - avril 2024
+ Optimisation et monitoring de la pipeline data Bigquery de l’équipe Datascience :
Amélioration des performances et fiabilité de la pipeline/requêtes Bigquery de l’équipe, avec réduction des temps de
chargement et traitement des données, et mise en place d'un système d𠆚lerting pour monitorer l’utilisation du
Datawarehouse avec Cloud Monitoring
+ Mise en place de Dashboards sous Lookerstudio et monitoring du modèle de Marketing Mix Modeling :
Création de tableaux de bord interactifs basés sur Looker Studio et Bigquery pour l'analyse des données en sortie du
modèle et facilitation de la prise de décision
+ Migration de la datapipeline SQL de l'équipe vers DBT et implémentation de tests automatisés et de chaîne
CI/CD :
Migration de la pipeline de données existante, basée sur SQL, vers DBT avec orchestration sous Airflow pour une
meilleure gestion de dépendance et qualité de données, accompagnée de l'intégration de tests automatisés et de
l'implémentation d'une chaîne CI/CD pour renforcer la qualité et l'efficacité du déploiement
+ Développement d’une API de validation des modèles basée sur Python / FastApi / Cloud run
Environnement technique : Agile, Bigquery, Terraform, Cloud build, Cloudrun, DBT, Airflow, Python, Looker, Data studio,
Confluence, FastAPI, Jira, Github, SQL, GCP, Docker, Devops.
Ingénieur Data
chez Equativ
novembre 2021 - novembre 2022
+ Conception et implémentation d𠆞TL (pipelines de transformation de la donnée) pour aggréger la données
publicitaires (plusieurs Terabytes par heure) reçues depuis les sites web des clients, et les stocker dans notre
datawarehouse Clickhouse ainsi que sur Hbase et maintenance de pipelines existantes sous Spark, java, Hbase,
Hadoop, Clickhouse.
+ Migration de la datapipeline de production principale de l𠆞ntreprise depuis Hadoop vers Google Cloud
Platform (GCP), mise en place des environnements DEV, PREPROD et PROD sur le cloud GCP, et mise en place de
dashboards et métriques pour monitorer la migration sous Dataflow, Bigtable, Bigquery, Java, Python, Terraform.
+ Développement et mise en place de tableaux de bord sous Looker Studio pour le suivi qualitatif des données
publicitaires. Utilisation de Could functions, Postgres, Looker Studio, BigQuery et SQL pour l'extraction, l'analyse
et la visualisation des données, permettant une compréhension approfondie et presqu𠆞n temps réel de la
performance des campagnes publicitaires.
+ Implémentation des règles de sécurités et des droits dès/ roles associés aux différents services accounts et
les configurations spécifques sur GCP sous Terraform.
+ Gestion du Datawarehouse Clickhouse pour les données temps réel et historiques, création de nouvelles tables et
mise à jour de tables existantes qui servent comme source de données pour les rapports clients sous Clickhouse,
SQL, SQL Server.
+ Montée en compétence sur Amazon web service (AWS, S3, Glue, RDS)
+ Conception et développement de nouvelles features et mise en production pour chaque Sprint.
+ Maintenance et amélioration de pipelines Gitlab-ci.
Environnement technique : Agile, Dataflow, Bigtable, Bigquery, Hadoop, Java, Terraform, Flink, Scala, Spark, Hbase,
Clickhouse, Python, Confluence, Jira, Gitlab-ci, SQL, Snowflake, SQL Server, Docker, Kubernetes, Devops
Ingénieur Data
chez Xandr – Microsoft
avril 2018 - novembre 2021
+ Concevoir et implémenter une application qui aide à la prévention automatisée en temps réel des bots pour les
publicités en ligne à l'aide d'un service antifraude externe (Whiteops, ETL, Airflow, Python, Pandas).
+ Migration de la datapipeline de l’équipe depuis Hadoop vers Azure Databricks, mise en place des
environnements DEV, PREPROD et PROD, et mise en place de dashboards et métriques pour monitorer la migration
sous Spark, Azure Databricks, Scala, Terraform.
+ Suggérer, concevoir et implémenter une meilleure architecture de Data-pipeline qui a amélioré le temps d'exécution et
l’utilisation globale de la mémoire / CPU pour de nombreuses applications utilisées pour le reporting et la prévention de
la fraude (Map-reduce, JAVA, Spark, Scala).
+ Tâches diverses : - Mise en place et amélioration de Dashboards (Grafana, Redash) pour un meilleur suivi de la fraude
liée à la publicité en ligne, rédaction de Runbooks pour la gestion des alertes.
Environnement technique : Agile, Airflow, Azure, Databricks, Python, Panda, Hadoop, Map-reduce, JAVA, Spark, Hive,
Scala, Grafana, Redash, Vertica, Jenkins, Confluence, Jira, PowerBI, Docker, Kubernetes, Artifcatory, Devops.