PROJETS SIGNIFICATIFS (REALISES EN PARALLELE DES MISSIONS) :
PRESENTATION DE REX A ENVIRON 30 CLIENTS (RETOURS D’EXPERIENCE) ET PARTENAIRES : THEME « GESTION DES DONNEES EN TEMPS REEL AVEC SPARK STREAMING PERMETTANT LA VISION 360 (CONNAISSANCE CLIENT) ».
Présentation des différents types de besoins Métiers
Présentation des architectures cibles
Présentation et analyse des différentes couches de traitements en temps réel
Explications et justifications des outils et des Framework utilisés
Descriptif des best practice sur la partie CI/CD
Exposition des résultats de la performance concernant la volumétrie de donnée et le temps de traitements/réponses
Proposition d’architecture cible hybride optimale avec Spark Batch et streaming
ENVIRONNEMENT : SPARK STREAMING, SPARK BATCH, KAFKA, MANGO DB.
PROJET UCASE & CLIENT (CONFIDENTIEL): CREATION D’UNE APPLICATION D’AUTHENTIFICATION EN COLLECTANT LES DONNEES BIOMETRIQUES VIA UNE ARCHITECTURE CLOUD AZURE.
ENVIRONNEMENT : DATABRICKS, JAVA, SPARK, SCALA, PYTHON, EVENTHUB, MICROSOFT AZURE, REST API, GIT, JENKINS, AZURE DEVOPS, H2O.
PROJET UCASE : DEVELOPPEMENT D’UN OUTIL SPECIFIQUE A LA RECOMMANDATION VIDEO BASE SUR L’IA GENERATIVE
Construction de base de données de tests cibles / Clients
Génération de vidéo à l’aide de différents outils de l’IA générative
Etude d’industrialisation sur GCP
Formation collaborateur Ucase sur les best-practise du projet
ENVIRONNEMENT : SPARK (+STRUCTURED STREAMING), SCALA, KAFKA, MONGOBD, HADOOP (MR), HIVE, IMPALA, PL/SQL, GESTIONNAIRE DE RESSOURCE : YARN / MESOS, GCP.
DESCRIPTION DES INTERVENTIONS
GROUPAMA (G2S) NOVEMBRE 2020 A MARS 2024
_________________________________________________________________________________________________________________________________________________________________________________________________
DATA ENGINEER / REFERENT TECHNIQUE
PROJET : MISE EN ŒUVRE D’UNE APPLICATION PERMETTANT LA VUE 360 CLIENT ET DE PLUSIEURS FRAMEWORKS DE COLLECTE DE DONNEES EN TEMPS REEL.
EQUIPE PROJET : X DEVELOPPEURS, X PRODUCT OWNERS, X SCRUM MASTER
METHODOLOGIE : SCRUM
Recueil des besoins Métiers
Participation à la conception de l’architecture technique de la future plateforme
Ingestion d’évènements en temps réel (Kafka + Spark Structured Streaming) pour différents cas d’usage (GRC, Gestion de la flotte automobile, Gestion du parc immobilier …)
Conception et développement (Spark / Scala) d’un Framework de collecte multi-sources, de nettoyage et de stockage des données
Intégration de la chaine CI/CD avec Maven et Sonar
Optimisation (ressources et revue de code) de traitements Spark existants
Mise en place d’un Framework de raffinage de données (Spark/Scala) suffisamment configurable pour rendre accessible les développements Spark aux non-initiés
Réalisation de tests fonctionnels
Développement et exécution des tests unitaires automatiques
Migration de données Cross / Cluster
Agrégation de données dans un DataWarehouse en Spark / Scala
…
ROLE DE REFERENT TECHNIQUE :
Mise en œuvre de l’architecture cible
Evangélisation sur les technologies Data
Planification des jalons
Budgétisation des projets
Identification des ressources (humaines et matériel)
Participation aux séances de recrutement (Tests Techniques)
Intervenant actif au sein de l’équipe Data Engineers afin d’assurer la veille technologique
…
POC :
POC / Migration du DataLake de Cloudera vers le stockage Azure et Databricks
Création des nouveaux jobs sur des Cloud Azure (ADF, Databricks)
…
ENVIRONNEMENT TECHNIQUE : SPARK (+STRUCTURED STREAMING), SCALA, KAFKA, MONGODB, HADOOP (MR), HIVE, IMPPALA, PL/SQL, YARN / MESOS (GESIONNAIRE DE RESSOURCES), AZURE, AZURE DATA FACTORY, DATABRICKS.
UCASE CONSULTING & CLIENT (CONFIDENTIEL) JANVIER 2020 A NOVEMBRE 2020
_________________________________________________________________________________________________________________________________________________________________________________________________
DATA ENGINEER
PROJET : DANS LE CADRE DE LA MISE EN ŒUVRE D’UNE APPLICATION D’AUTHENTIFICATION, COLLECTE ET TRAITEMENT DE DONNEES BIOMETRIQUES VIA UNE ARCHITECTURE CLOUD AZURE.
Rédaction des spécifications techniques et fonctionnelles
Traitement des données de navigation (coordonnées de souris, clavier) en temps réel via Spark
Création des nouveaux jobs sur des Cloud Azure (ADF, Databricks)
Calcul des métriques relatives à chaque profil (Utilisateur)
Développement d’une application formulaire à l’aide d’Angular
Entrainement d’un modèle Machine Learning (H2O)
Création d’une API de réponse et de calcul
Ecriture des scripts de création des environnements et des clusters
Mise en place de la chaîne d’intégration continue CI/CD
Amélioration des modèles de Machine Learning
Suivi et gestion du versioning avec Git
Déploiement de la solution avec DevOps
Support, formation et accompagnement des collaborateurs Ucase
…
ENVIRONNEMENT TECHNIQUE : DATABRICKS, JAVA, SPARK, SCALA, PYTHON, EVENTHUB, AZURE, REST API, GIT, JENKINS, AZURE DEVOPS, H2O.
SOCIETE GENERALE MAI 2018 A DECEMBRE 2019
_________________________________________________________________________________________________________________________________________________________________________________________________
DATA ENGINEER
PROJET : DANS LE CADRE DE LA LUTTE CONTRE LA FRAUDE ET LE LANCEMENT DE L’OFFRE « INSTANT PAYMENT », MISE EN PLACE D’UNE API DE SCORING DES TRANSACTIONS ET VIREMENTS BANCAIRES. CETTE SOLUTION PERMET DE MODELISER LES HABITUDES CLIENT ET DE BLOQUER LES TRANSACTIONS DOUTEUSES.
EQUIPE PROJET : X DEVELOPPEURS, X PRODUCT OWNERS, X SCRUM MASTER
METHODOLOGIE : SCRUM
Analyse des besoins et étude de faisabilité
Chiffrage des développements
Identification des sources de données en s’assurant de la conformité de leur utilisation
Développement de jobs Spark Scala en mode batch et temps réel pour le calcul des profils (habitudes des clients)
Restitution des alertes en temps réel pour l’ensemble des entités du Groupe (BDDF, Crédit Du Nord) et les marchés
(PART, PRO et ENT)
Suivi du RUN et amélioration continue des modèles
Modélisation, développement et tests des interfaces API pour répondre aux requêtes de la banque
Définition des règles d’accès à la plateforme via API
Mise en place des process de conformité GDPR :
• Amélioration de la qualité des données
• Anonymisation des données
• Purge automatique des données
Mise en place de la chaîne d’intégration continue CI/CD (Git, Jenkins, Nexus, Ansible)
Automatisation des déploiements avec Ansible
Suivi et réalisation des mises en production et résolution de bugs
Coordination entre les différents intervenants (DataScientists, Chefs de projet, Développeurs IHM)
…
MACHINE LEARNING :
Classification des transactions à l’aide des modèles Machine Learning fournis par les DataScientists
Développement de modèles Machine Learning (H2O, Pandas) pour la prédiction du schéma de la fraude
…
ENVIRONNEMENT TECHNIQUE : HORTONWORKS, JAVA, SPARK, SCALA, PYTHON, HBASE, KAFKA, REST API, GIT, JENKINS, NEXUS, ANSIBLE, PANDAS.
VEOLIA (ENERGY EFFICIENCY) JANVIER 2018 A MAI 2018
_________________________________________________________________________________________________________________________________________________________________________________________________
DATA ENGINEER
PROJET : AFIN DE REDUIRE LES COUTS DE DEPLACEMENTS ET DE COLLECTE DE VERRE, MISE EN PLACE D’UN SYSTEME DE PREDICTION DU TAUX DE REMPLISSAGE PAR POINT DE COLLECTE BASE SUR LES DONNEES HISTORIQUES.
EQUIPE PROJET : X DEVELOPPEURS, X PRODUCT OWNERS, X SCRUM MASTER
METHODOLOGIE : SCRUM
Enrichissement des API pour le Front
Extraction des données avec BigQuery
Installation et déploiement du Swagger, Maven et Cucumber
Réalisation des tests en Java et Scala sur l’ensemble de la chaîne
Implémentation d’Apache Livy pour la partie API
Transformation des requêtes SQL en jobs Spark
ENVIRONNEMENT TECHNIQUE : GOOGLE CLOUD PLATFORM (BIGQUERY), HIVE, APACHE LIVY, JAVA, SQL, SPARK SQ, PYTHON.
EDF JUILLET 2017 A DECEMBRE 2017
_________________________________________________________________________________________________________________________________________________________________________________________________
DATA ENGINEER
PROJET : DANS LE CADRE DE LA MISE EN PLACE D’UN PROJET PERMETTANT LA VUE 360° DU MARCHE D’AFFAIRES, AGREGATION ET MIGRATION DE L’ENSEMBLE DES SYSTEMES RELATIONNELS (DONNEES UTILES) VERS UN SYSTEME NON-RELATIONNEL BASE SUR UN DATALAKE ALIMENTE PAR DES JOBS EN MODE BATCH ET TEMPS REEL.
EQUIPE PROJET : X DEVELOPPEURS, X PRODUCT OWNERS, X SCRUM MASTER
METHODOLOGIE : SCRUM
Analyse des besoins exprimés par les Product Owners
Rédaction des spécifications techniques détaillées
Modélisation et dénormalisation des tables Hbase
Participation aux Daily Meeting (méthodologie Agile)
Accompagnement des équipes SQL et alimentation en Kafka
Développement des API pour SalesForce basés sur les données Hadoop
Intégration des donnés en mode batch et temps réel
Calcul des indicateurs et présentation des résultats à SalesForce
Développement de jobs Spark d'agrégation
Développemen...