Data Engineer
TotalEnergies
novembre 2020 - aujourd'hui
Participation à plusieurs projets stratégiques visant à digitaliser, automatiser et optimiser les processus industriels à travers des solutions data-driven dans un environnement cloud Azure.
MasterMaint : Digitalisation des plans de maintenance.
Ingestion de données SAP depuis Azure Data Lake vers Azure SQL.
Pipelines de validation et nettoyage de données complexes.
Implémentation de OpenTelemetry avec Application Insight pour monitorer les performances des pipelines SAP.
CI/CD automatisé via GitHub Actions.
Monitoring et logging des pipelines pour améliorer la fiabilité.
Membre actif du comité technique « Azure Function Starter Kit ».
Outils : Python, Azure Durable Functions, OpenTelemetry, Application Insight, Azure SQL, Azure Data Lake, GitHub Actions.
Sand Management : Optimisation de la production via la détection de sable.
Traitement de flux chauds (EventHub) et froids (Data Lake) avec Azure Durable Functions et Service Bus.
Modélisation SQL avancée avec partitionnement.
Préparation des données historiques via Databricks pour le Machine Learning.
Outils : Python, Databricks, Azure Event Hubs, Service Bus, Durable Functions, Azure SQL, Data Lake.
Dynamic Choke Model : Calcul et visualisation en temps réel des potentiels de production.
Intégration de données multi-sources via Azure Data Factory.
Automatisation CI/CD avec Azure DevOps.
Outils : Python, Azure Data Factory, Azure SQL, Azure Data Lake, Azure DevOps.
DrillCost : Optimisation des coûts de forage (DRILLEX).
Intégration de données multi-sources dans Azure SQL.
Développement de procédures stockées T-SQL.
Participation aux ateliers de cadrage fonctionnel.
Outils : Azure Data Factory, Azure SQL, Azure DevOps, Data Lake.
Méthodologie : Scrum, Jira, Confluence, Miro.
Python, Azure Functions, Azure EventHub, Azure Data Factory, Databricks, OpenTelemetry, Application Insight, Azure SQL, Azure Data Lake, GitHub Actions, Azure Service Bus
Data Engineer
OVH Cloud
juin 2020 - novembre 2020
Participation au projet Service Data, dédié au traitement et au monitoring des données journalières de facturation du département financier.
Collecte, transformation et traitement des données de facturation quotidienne.
Développement, orchestration et supervision de workflows de traitement de données.
Maintenance des jobs Spark pour assurer la fiabilité et la performance des traitements.
Collaboration avec les équipes finance et data pour garantir la qualité des données et la conformité des processus.
Python, Scala, Spark, PySpark, Hadoop, Apache Airflow
Data Engineer
SCALIAN
janvier 2020 - juin 2020
Fiver – Data Science Platform Engineer
Participation à la conception et au développement d’une plateforme de production dédiée aux Data Scientists, visant à améliorer la collaboration, la reproductibilité et l’industrialisation des modèles de Machine Learning.
Intégration de MLflow pour le suivi des expériences ML, la gestion des modèles et l𠆚mélioration de la reproductibilité.
Mise en place d’un environnement de développement conteneurisé avec Docker, facilitant l’intégration et la standardisation des workflows.
Conception et déploiement de pipelines CI/CD avec GoCD pour automatiser les tests et les mises en production des modèles.
Développement de workflows d’ingestion de données avec Apache Airflow, pour alimenter une base PostgreSQL en données structurées.
Déploiement de la stack ELK (Elasticsearch, Logstash, Kibana) pour le monitoring en temps réel des logs ML, renforçant l’observabilité et le débogage des modèles en production.
Python, JupyterLab, VS Code, Docker, GoCD, MLflow, Apache Airflow, PostgreSQL, ELK Stack, DVC, Portainer
Data Engineer
AZEO (Avanade)
avril 2019 - septembre 2019
Projet TESSI : Centralisation et standardisation des flux de données de facturation dans Azure.
Intégration de données de facturation issues de sources multiples dans Azure SQL Database.
Création de tables et procédures stockées en T-SQL via SSMS.
Utilisation de Azure Data Factory et Mapping Data Flow pour orchestrer les flux de données.
Outils : Azure SQL Database, T-SQL, Azure Data Factory, Mapping Data Flow.
Projet SNCF Train Tracker (Lab) : Suivi en temps réel des trains de la ligne E.
Déploiement d’un cluster Hadoop sur Amazon EC2.
Ingestion en temps réel des données de l𠆚PI Transilien vers HDFS via Kafka Producer.
Traitement des flux avec Spark Streaming et calcul de métriques par train.
Visualisation des données sur un tableau de bord interactif avec Tableau.
Outils : Bash, Hadoop, Kafka, Spark Streaming, Spark SQL, Tableau.
Bash, Hadoop, Kafka, Spark Streaming, Spark SQL, Tableau, Azure SQL Database, T-SQL, Azure Data Factory, Mapping Data Flow