Migration du legacy on premise Cloudera vers le Cloud
- Modélisation et alimentation de la cloud database Snowflake
- Design et Développement des Jobs ETL Spark en python et Scala
- Industrialisation des modèles de machine learning en étroite collaboration avec les data scientists
- Sizing et Tuning des clusters Databricks pour optimiser les performances jobs ETL Spark
Déploiement d’applications ETL (Spark/Scala) mode batch (Spark SQL, fonctions Windowing/Aggregations/Join)
- Configuration des applications Spark avec les frameworks (TypesafeConfig et PureConfig)
- Gestion des arguments additionnels des jobs Spark avec La librairie Scopt
- Dockerisation des environnements des tests d’intégration
- Développement d’applications (spark/scala) d’ingestion et de mapping des données en temps réel (GCP platform :
Dataproc, Pubsub, Big Query, Spanner, GCS, Cloud Functions)
- Mise en place de templates de jobs spark normalisés en utilisant des frameworks de gestion de config (Typesafe
config) et d’injection de dépendances (ServiceLoader)
- Ordonnancement de l’exécution des jobs spark en running sous Yarn avec l’outil Composer
- Tuning des Jobs Spark dans la production (Spark Web UI Metrics) / Résolution des bugs
- Développement de Spark Custom Streaming Source/Sink (scala, sbt)
- Mise en place de pipelines CI/CD (tasks de compile, quality, unit tests, build et deploy) avec Gitlab CI (toolchain :
Git, Jira, Sonarqube, Nexus)
-Développement de pipelines ETL avec Hadoop/Spark (Distribution Hortonworks HDP 2.6)
-Implémentation des jobs Spark en Scala avec la toolchain:Maven,Eclipse, Git,
Jenkins-Configuration et packaging des traitements dans un environnement Hadoop:
YARN/OOZIE/HIVE
-Rédaction des spécifications techniques détaillées /Documentation des développements réalisés
-Déploiement de workflows pour le traitement de données de types séries temporelles en se basant sur les technologies du BIG Data (Distribution Hortonworks HDP 2.5)
: Import des données (flight data records) sous HDFS/HIVE
-Analyse des tables HIVE avec le moteur de calcul distribué SPARK: API DATAFRAME/SQL/Built
-in UDFs
-Développement d’applications PySpark pour la détection des différents patterns
-Utilisation du gestionnaire de Ressources Yarn Pour l’exécution des jobs Sparks
-Implémentation de pipelines de machine learning avec l’API ML de SPARK
-Développement de POCs BIG Data pour la collecte,le stockage,le traitement, l’analyse et la
visualisation des données multi-média massives (batch et temps réel)
-Expérimentation et Implémentation d’algorithmes d’apprentissage performants et scalables
(Machine Learning supervisé, non supervisé, collaborative filtering avec Spark en scala)
avionique pour calculateur embarqué dans trains d’atterrissage de l’A350 XWB: Steering
-Analyse et traitement des faits techniques vus en essais en vol ou en service commercial/Suivi et support technique des activités sous traitées de codage et d’intégration
-Gestion des exigences/de la configuration et suivi de la traçabilité bidirectionnelle
-Analyse des données (séries temporelles) radar issues de plusieurs sites
-Etude et implémentation d’un algorithme de lissage des données radar à la sortie du pistage existant-Développement d’algorithmes de filtrage plus performants que le filtrage de Kalman utilisé en pistage radar (Un scented Kalman filtering, Interacting Multiple Model Kalman Filtering)
- Développement/déploiement d’applications Spark Structured Streaming en Scala sous AWS Databricks
- Ingestion en temps réel des données depuis Kafka avec Spark (développement consumer Kafka en streaming/producer
Kafka en streaming sous Spark Structured Streaming)
- Tuning des paramètres de configuration du Producer/Consumer Kafka (tuning acks, min.inSync.replicas, etc)
- Développement des applications ETL avec Kafka Connect/Debezium
- Développement d’un custom Sink DynamoDB avec Spark Structured Streaming en Scala (API ForEachWriter)
- Mise en place de la gouvernance des données Avro circulant dans Kafka via le tuning du schema Registry Server
- Tuning Performance Jobs Spark avec Spark UI/Ganglia (tuning spark conf, partitioning, cores,RAM, type worker)
- Mise en place monitoring des métriques JMX avec Prometheus Server/Datadog