Big Data Engineer
Enedis Lyon
6/2024 -
Linky Pilot est le projet de pilotage et d&rsquoanalyse du système Linky et doit répondre aux enjeux suivants : reporting,
export des données, exploitation des données.
Au sein de l'équipe LinkyPilot mes responsabilités étaient les suivantes :
Développement de pipelines de données avec Spark en Java et Scala pour le chargement de données liées à la
consommation d'énergie des clients particuliers et l'état des dispositifs d'Enedis.
Transformation des données sur Oracle et chargement dans Système de fichier CEPH.
Déploiement en prod des data pipelines avec Ansible, Terraform et Jenkins.
Collecte et traitement de données depuis Kafka et utilisation de la bibliothèque Protobuf pour la sérialisation
et désérialisation des données échangées.
Gestion de clusters Kafka et reprise de consommation des messages et réplication des topics.
Développement de tests unitaires et d'intégration sur Java Spark.
Gestion des anomalies en production et la solution d'incidents
Assumer le rôle de Scrum Master durant certains sprints
Méthode de travail : TDD (Test Driven Development), Scrum avec Linkypilot, Kanban avec Guilde Spark
Environnement technique : Spark, Kafka, Java, Scala, Ansible, Jenkins, Oracle, CEPH, Ctrl-M, Grafana, Spark UI,
Hive, Parquet, Confluence, Tableau, Maven, Sbt
ITG Montreuil
Data Engineer BNP
6/2022 - 3/2024
Conception de modèles de données et développement de flux ETL avec SSIS et SQL Server en production,
en utilisant le modèle en étoile pour le datawarehouse.
Intégration de données depuis différents outils devops à travers l'API Rest en utilisant Python.
Chargement des données source sur Postgresql et historisation des données utilisateurs selon le modèle Data
Vault.
Développement de processus ETL sur Dataiku et transformation des données avec Postgresql.
Migration de tableaux de bord Power BI vers Tableau
Déploiement de projets Dataiku en production, gestion des incidents, documentation complète de
l'architecture des projets et formation de l'équipe à l'utilisation de Dataiku.
Création de scripts Python et configuration de Logstash pour l'extraction de données via les API des outils
DevOps et stockage des données de Jenkins sur Elasticsearch.
Environnement technique : Dataiku, Python, PostgreSQL, SSIS, Elasticsearch, GitLab, Jenkins, Jira, API REST,
Shell, Azure
Outils DevOps utilisés : Git, Jenkins, Fortify, XRay, Confluence, Nexus IQ, ServiceNow, Release
Big Data Engineer
LA POSTE Saint-Quentin-en-Yvelines, Ile-De-France
4/2021 - 5/2022
Consultant chez Aydon Technologies
Migration de projets de SAS vers Dataiku, utilisant des recettes Dataiku et Spark SQL.
Transformation des données selon des règles de gestion avec Spark Scala.
Création de pipelines ETL sur Dataiku avec PySpark et Hive.
Consolidation des données et optimisation technique et fonctionnelle sur des projets Dataiku.
Modélisation conceptuelle (BPMN) des processus de traitement des plis pour chaque projet
Gestion des données provenant des Plateformes Industrielles Courrier (PIC) volumétrie de données 40
Go/jour.
Ordonnancement et automatisation des traitements Dataiku avec Airflow.
Méthode de travail : Scrum, Conception Orientée Métier (DDD)
Environnement technique : Dataiku, Spark, Scala, Python, Airflow, Cloudera
Data Engineer
Banque De France Paris Consultant chez Novagen
-
Client : Équipe de Data Scientists et Data Analysts utilisant Power BI, SAS, R.
Chargement de données relatives aux prêts bancaires sur Hive en utilisant Spark-Java.
Configuration avancée de Hive, incluant le partitionnement des tables stockées au format ORC.
Génération de jeux de données aléatoires reproduisant la structure des données de la Banque De France.
Optimisation (tuning) des traitements Spark et gestion du stockage HDFS.
Environnements techniques : Java Spark, Hive, Cloudera, Spark, stockage ORC, Power BI
Data Engineer
Décathlon La Défense, Île-De-France
11/2018 - 6/2020
Implémentation d'une solution Big Data OLAP avec Apache Kylin sur AWS EMR, assurant une architecture
scalable et résiliente.
Liaison entre les équipes métier et technique, avec déploiement et configuration de clusters EMR.
Chargement et transformation de données depuis le Datalake Décathlon avec Hive et PySpark.
Automatisation du déploiement d'infrastructures AWS et GCP avec Terraform, Jenkins et Ansible.
Développement de POC pour Apache Kylin sur GCP et déploiement d'Apache Druid pour l'ingestion de
données sur AWS.
Optimisation de performances pour Apache Druid et Kafka, incluant le rétablissement de services analytiques.
Environnements techniques : AWS S3, EMR, VPC, Cloudformation, Redshift, Kubernetes, PySpark, Spark
Streaming, Hadoop, Hive, HBase, Terraform, AWS, GCP, Apache Druid, Apache Kafka, Ansible
Stage Machine Learning Engineer
Integrytis Paris
4/2018 - 10/2018
Projet Data Science portant sur l'imagerie satellites.
Chargement des données liées aux images satellites et données météorologiques avec Scala sur Spark.
Développement de modèles d'apprentissage avec Python et Sickit-learn.
proposer des services de tendances/prédictifs avec Dataiku et industrialisation de la solution.
Environnements techniques : Spark, Scala, Python, Hive, Dataiku