EXPERIENCES PROFESSIONNELLES
Fev. 2022-Mar. 2023: Senior Data Engineer, Telenet Belgique full Remote/English (contrat freelance)
- Migration du legacy on premise Cloudera vers le Cloud
- Modélisation et alimentation de la cloud database Snowflake
- Design et Développement des Jobs ETL Spark en python et Scala
- Industrialisation des modèles de machine learning en étroite collaboration avec les data scientists
- Sizing et Tuning des clusters Databricks pour optimiser les performances jobs ETL Spark
- Stack : Azure Databricks Pools, Job clusters, MLOPS, Lakehouse/Delta Lake, DataDog, Docker, Aiven, Jenkins
Rest API, Pyspark, Scala, Maven, Snowflake, Terraform, Kubernetes, Azure Storage, Azure Devops, Cloudera
Oct. 2019-Jan. 2022: Senior Data Engineer, Total (contrat freelance)
- Développement/déploiement d’applications Spark Structured Streaming en Scala sous AWS Databricks
- Ingestion en temps réel des données depuis Kafka avec Spark (développement consumer Kafka en streaming/producer
Kafka en streaming sous Spark Structured Streaming)
- Tuning des paramètres de configuration du Producer/Consumer Kafka (tuning acks, min.inSync.replicas, etc)
- Développement des applications ETL avec Kafka Connect/Debezium
- Développement d’un custom Sink DynamoDB avec Spark Structured Streaming en Scala (API ForEachWriter)
- Mise en place de la gouvernance des données Avro circulant dans Kafka via le tuning du schema Registry Server
- Tuning Performance Jobs Spark avec Spark UI/Ganglia (tuning spark conf, partitioning, cores,RAM, type worker)
- Mise en place monitoring des métriques JMX avec Prometheus Server/Datadog
- Stack : AWS, S3, DynamoDB, STS, SSM, Kafka MSK, Avro, Schema Registry Server, Kafka Connect , Scala, Python
Juillet 2019-Octobre 2019: Senior Data Engineer pour Sodexo (Contrat Freelance)
- Déploiement d’applications ETL (Spark/Scala) mode batch (Spark SQL, fonctions Windowing/Aggregations/Join)
- Configuration des applications Spark avec les frameworks (TypesafeConfig et PureConfig)
- Gestion des arguments additionnels des jobs Spark avec La librairie Scopt
- Dockerisation des environnements des tests d’intégration
- Stack: Microsoft Azure (Azure Databricks, Data Lake Storage, Azure Data Factory, Azure Devops (VSTS), Azure
Pipleines), Scala, Sbt, Python, Intellij IDE, Shell
Juillet 2018-Juillet 2019: BIG Data Engineer pour Renault Digital (Contrat Freelance)
- Développement d’applications (spark/scala) d’ingestion et de mapping des données en temps réel (GCP platform :
Dataproc, Pubsub, Big Query, Spanner, GCS, Cloud Functions)
- Mise en place de templates de jobs spark normalisés en utilisant des frameworks de gestion de config (Typesafe
config) et d’injection de dépendances (ServiceLoader)
- Ordonnancement de l’exécution des jobs spark en running sous Yarn avec l’outil Composer
- Tuning des Jobs Spark dans la production (Spark Web UI Metrics) / Résolution des bugs
- Développement de Spark Custom Streaming Source/Sink (scala, sbt)
- Mise en place de pipelines CI/CD (tasks de compile, quality, unit tests, build et deploy) avec Gitlab CI (toolchain :
Git, Jira, Sonarqube, Nexus)
Avril 2018-Aujourd’hui: BIG Data Engineer pour BNP PAR IBAS PF (Contrat Freelance
/portage salarial)
-Développement de pipelines ETL avec Hadoop/Spark (Distribution Hortonworks HDP 2.6)
-Implémentation des jobs Spark en Scala avec la toolchain:Maven,Eclipse, Git,
Jenkins-Configuration et packaging des traitements dans un environnement Hadoop:
YARN/OOZIE/HIVE
-Rédaction des spécifications techniques détaillées /Documentation des développements réalisés
Novembre 2017-Avril 2018:
BIG Data Engineer/Data Scientist pour Spherea (Ex Cassidian)
-Déploiement de workflows pour le traitement de données de types séries temporelles en se basant sur les technologies du BIG Data (Distribution Hortonworks HDP 2.5)
: Import des données (flight data records) sous HDFS/HIVE
-Analyse des tables HIVE avec le moteur de calcul distribué SPARK: API DATAFRAME/SQL/Built
-in UDFs
-Développement d’applications PySpark pour la détection des différents patterns
-Utilisation du gestionnaire de Ressources Yarn Pour l’exécution des jobs Sparks
-Implémentation de pipelines de machine learning avec l’API ML de SPARK
Mars 2017-Septembre 2017:
Data Analyst pour GFI Informatique/Disneyland Paris
-Développement de POCs BIG Data pour la collecte,le stockage,le traitement, l’analyse et la
visualisation des données multi-média massives (batch et temps réel)
-Expérimentation et Implémentation d’algorithmes d’apprentissage performants et scalables
(Machine Learning supervisé, non supervisé, collaborative filtering avec Spark en scala)
Juillet 2016-Janvier 2017:
Software Engineer pour Assytem/Safran Landing Systems-Spécification avionique pour calculateur embarqué dans trains d’atterrissage de l’A350 XWB: Steering
-Analyse et traitement des faits techniques vus en essais en vol ou en service commercial/Suivi et support technique des activités sous traitées de codage et d’intégration
-Gestion des exigences/de la configuration et suivi de la traçabilité bidirectionnelle
Avril 2014-Juillet 2016:
HUMS Data Engineer pour Hutchinson (filiale Total)
-Analyse des données issues de systèmes HUMS pour l’optimisation des opérations de maintenance
-Elaboration des cahiers de charges fonctionnels et des spécifications techniques des produits/Définition des architectures systèmes/Simulation et modélisation
-Suivi des projets en termes de cout, délais et qualité
Février-Aout 2013
Signal Processing/Radar Data Engineer pour Thales Air Systems
-Analyse des données (séries temporelles) radar issues de plusieurs sites
-Etude et implémentation d’un algorithme de lissage des données radar à la sortie du pistage existant-Développement d’algorithmes de filtrage plus performants que le filtrage de Kalman utilisé en pistage radar (Un scented Kalman filtering, Interacting Multiple Model Kalman Filtering)