EXPERIENCE PROFESSIONNELLE
Juillet 2023 Janvier 2024 RTE
Big DATA ENGINEER
Contexte
• La mission consistait à mettre en place l’infrastructure de stockage des données
météorologiques AROME de Météo France pour une utilisation par la Direction de la R&D.
Cette mise en place nécessitait une modification du partitionnement actuel, qui était basé sur
le temps, pour un partitionnement géographique..
Réalisations
• Une étude a été menée pour développer un processus d’ingestion de données AROME
pour les stocker sur une infrastructure Hadoop au format Parquet et les rendre
accessibles via la solution Apache Hive.
• Optimisation des job Spark pour mieux gérer le shuffle et le stockage des données.
• Une multitude de tests ont été effectués pour choisir le bon partitionnement géographique
à appliquer sur les données source afin d’avoir le meilleur temps de réponse d’une
requête SQL sur les tables Hive générées.
• Une application PySpark a été développée pour gérer l’ingestion des données source
AROME en appliquant des transformations et du partitionnement géographique sur les
données source tout en stockant les données dans une table Hive au format Parquet.
• Des ingestions de bout en bout ont été déployées et gérées, depuis différents modèles de
données source AROME jusqu’au datalake.
• Le volume de données à ingérer pour chaque modèle AROME était d’environ 1,5 To par
an et l’ingestion des 4 dernières années était prévue. Les données ingérées ont été
exposées par la suite aux différents utilisateurs à travers Hue et Dremio.
Environnement technique
Cloudera, PySpark, Python, Make, SQL, Hive, Hue, Dremio, Data Lake.
Septembre 2022 juin 2023 SODEXO
AZURE DATA ENGINEER
Contexte
• Mise en place d’un Lakehouse hébergé dans une environnement cloud AZURE, basé sur
l’architecture medallion de databricks.
• Mise en place d’un Framework d’ingestion de données dans la global data platform de
Sodexo. Le but de ce Framework est de normaliser et centraliser les paternes d’ingestion de
données sources à travers tous les domaines et les régions au niveau mondial de Sodexo
dans un seul endroit qui sera dans un Azure lakehouse.
• Déployer et gérer des ingestions de bout en bout, depuis la source de donnée jusqu’à le
lakehouse. Les données seront stockées en format Delta de Databricks.
• Développement des notebooks databricks en Python pour la partie calcul et ADF (Azure data
factory) pour la partie orchestration.
• Les données seront exposées par la suite au diffèrent utilisateurs à travers une couche de
service basé sur la technologie Dremio.
• Intégration et déploiement des nouveaux projets dans une platform BI, basé sur Azure SQL
managed instance (SMI).
Environnement technique
Databricks, Spark, Deltalake, ADF, Python, SQL, Azure. Data lakehouse, Azure SQL Managed
Instance, Dremio
Novembre 2019 – Septembre 2022 BNP Paribas
Ingénieur Data
V360 Streaming:
▪ Mise en place d’une solution de Traitement en streaming vers Kafka et Cassandra
pour des données issues d’un topic kafka public, ce topic est alimenté par des
données issue du mainframe.
▪ Implémentions des composants de la CI/CD.
▪ Intégration avec cloud DMZR d’IBM.
Vision360 Corporate Batch :
▪ Traitements batch avec Apache Spark pour l’enrichissement de données vers Hive et
Cassandra.
▪ Migration d’infrastructure et mise en place des composants de la CI/CD.
Ingestion-Open:
▪ Maintenance d’une solution d’ingestion batch vers Hive pour des données issues de
bases de données open (hors mainframe) et implémentation des composants de la
CI/CD.
Greg :
▪ La centralisation des connaissances client pour l’ensemble des usages à travers la
collecte des données d’interactions (Web, mobile, agence, courrier, e-mail ...) de ce
dernier.
▪ Ces interactions sont issues d’un topic kafka et ensuit traitées en asynchrone et
redirigé vers une base mongoDB.
▪ L'application tourne dans une environnement cloud DMZR d’IBM
Environnement technique
Spark, Hadoop, Hive, Cassandra, KAFKA, AKKA Stream, Scala, java, Rx java, Spring Boot, SQL,
Docker
Octobre 2017 – Novembre 2019 Bull Atos
Ingénieur recherche et développement
Projet ou contexte : Exploration des accélérateurs Big Data sur HPC
▪ Travailler dans le domaine de HPDA (High Performance Data Analytics), qui consiste
à mettre en avant les technologies de l’HPC pour trouver des solutions aux problèmes
des applications Big Data, Machine Learning et Intelligence Artificielle.
▪ Exploration des Accélérateurs Big data sur HPC, étudier comment accélérer les
workloads de l’IA à travers les GPU, en particulier pour le Framework Apache Spark
▪ Mise en œuvre des benchmarks avec Apache Spark à base des algorithmes de
Machine Learning pour mesurer les performances entre GPU et CPU dans différents
workloads.
Environnement technique
HPC/GPU, cuda, Apache Spark/Scala/Paython
Article publié
********, Abdallah et al. “GPU Acceleration of PySpark using RAPIDS AI.” DATA (2019).