INGENIEUR DATA
ENEDIS
octobre 2024 - aujourd'hui
Projet : DAD (Data Analytics for Distribution).
Au sein de la Ligne de Produit Smart Patrimoine et Opération du Réseau, j&rsquoai rejoint l&rsquoéquipe DAD (Data Analytics for Distribution) afin de développer des services de données et des applications dédiées au réseau électrique. Ces développements incluent : le ciblage des investissements en fonction du caractère incidentogène des lignes électriques, la localisation préventive des incidents sur le réseau HTA aérien par l&rsquoanalyse de « signaux faibles », la modélisation de la charge en Basse Tension, ainsi que le suivi des crues.
Les cas d&rsquousage, principalement réalisés en Spark et Scala, répondent aux besoins de traitement de grandes quantités de données. Une part importante du travail consiste en la préparation des données, impliquant le croisement de multiples sources (historique du réseau électrique, données météorologiques, données cartographiques, etc.), enrichi par des traitements spécifiques tels que l&rsquoanalyse de graphes, des calculs géospatiaux et l&rsquoapplication de techniques de machine learning.
Environnement technique: Spark, Scala, Hadoop, Maven, Gitlab CI, Jenkins, Airflow
DEVELOPPEUR DEVOPS
ÉLECTRICITE DE FRANCE (EDF)
février 2024 - octobre 2024
Projet : dans le cadre de la mission EDF je suis intervenu sur le projet socle BI.
J'ai contribué à la mise en place d'un processus CI/CD afin de :
&bull Automatiser le déploiement des rapports Power Bi à partir d&rsquoun repo git
&bull Automatiser le déploiement des Processus, Taskflows Informatica à partir d&rsquoun repo git
&bull Automatiser l&rsquoexécution des scripts SQL sur Snowflake à partir d&rsquoun repo git
&bull Automatiser et centraliser les routines nocturnes en développant un workflow qui synchronise les taches sur les 3 plateformes (Snowflake, Informatica, Power BI).
Le projet permet de gérer les sources de chaque plateforme en utilisant des répertoires Git avec le modèle Git Flow.
Environnement technique: Gitlab, Python, Shell, SQL, Vault, Nexus, Informatica(Rest API), Snowflake(Rest API), Power BI(Rest API)
DEVELOPPEUR DATA & BIG DATA
ASSURANCE MALADIE CNAM
juillet 2022 - février 2024
Projet : dans le cadre de la mission labp7 CNAM je suis intervenu sur le projet EPRESCRIPTION.
La CNAM reçoit en permanence des fichiers contenant les métadonnées des prescriptions prises en charge (pharmacie, médecin, médicament, l&rsquoassuré &hellip), l&rsquoobjectif du projet est d&rsquoadopter une approche big data (flux de données massive et non structurés) pour analyser les données d&rsquoune manière efficace, simple pour faciliter le travail des agents de la CNAM.
Le projet s&rsquoétend sur trois parties :
 Préparation de l&rsquoinfrastructure :
o Préparation des Vms (ajout de volumes, préparation d&rsquoun serveur de paquet CentOS locale, préparation d&rsquoun serveur d&rsquoimage docker locale, installation de Gitlab &hellip)
o Installation d&rsquoun cluster Kubernetes (Réalisé avec des charts Ansible)
 Implémentation des composants du cluster Big Data :
Liste des solutions choisies :
o HDFS : stockage des fichiers
o Apache Hive : Entrepôt de données
o PostgreSQL : Metastore de Hive
o Apache NIFI : Ingestion des données
o Apache Spark : Moteur de calcul
o Kerberos : Authentification centralisée pour les différents composants du cluster
o Apache Ranger : Gestion des droits
o Apache Ranger KMS : Serveur des clefs
o Apache Hue: IDE SQL web
o Apache Atlas : Gouvernance des données
Tous les composants cités au-dessus sont installés sur le cluster Kube donc l&rsquoimplémentation consiste à :
o Préparation des images docker des différents composants du cluster
o Développement des charts Helm et scripts Shell pour automatiser le déploiement des différents composants
&bull Mise en place d&rsquoun pipeline d&rsquoingestion des données :
 Développement d'un workflow Apache NIFI :
o Consommer les fichiers texte/csv récupérés depuis le serveur SFTP CNAM.
o Appliquer les transformations nécessaires sur les fichiers récupérés.
o Développer des processeurs spécifiques (.nar) pour certaines transformations.
o Persister les fichiers transformés sur HDFS
o Lancer les scripts de création de l&rsquoentrepôt
o Lancer les scripts d&rsquoalimentation de l&rsquoentrepôt
 Mise à l'échelle de l'instance NIFI :
o Adapter l'instance en fonction des besoins de traitement des données.
 Implémentation d'un pipeline CICD avec GitLab :
o Gérer et automatiser le déploiement des versions des modèles NIFI et du code source des processeurs développés.
 Gestion et surveillance des flux NIFI :
o Assurer la gestion des flux, la surveillance et le débogage des processeurs.
 Création d'un entrepôt de données sur Hive :
o Modéliser l&rsquoentrepôt en suivant l&rsquo Architecture en médaillon.
o Préparer les scripts SQL pour Implémenter les tables HIVE.
o Préparer les scripts SQL pour alimenter les différentes couches de l&rsquoentrepôt.
 Sécurisation de l&rsquoentrepôt :
o Implémenter des politiques de sécurité avec Apache Ranger et Kerberos.
o Chiffrer les données de l'entrepôt à l'aide d'Apache Ranger KMS (serveur de clés).
 Tests de performance :
o Effectuer des tests de performance sur les tables de l&rsquoentrepôt en utilisant Apache Hue, Spark SQL et PySpark.
 Implémentation des connexions :
o Configurer Spark Thrift et Apache Superset pour établir une connexions vers l&rsquoentrepôt de données.
 Intégration avec Apache Atlas :
o Connecter Apache NIFI et Apache Atlas pour créer un dictionnaire de données et assurer le lignage des données.
Aussi dans le cadre de cette mission je suis intervenu sur ces tâches annexes :
 Installation et maintenance de l&rsquoapplication Data Galaxy
 Installation et maintenance de l&rsquoapplication Onyxia
 Gestion des serveurs du cluster
 Support technique pour toute l&rsquoéquipe labp7
Environnement technique: Python, Apache HDFS, Apache Hive, Apache Spark, Apache Ranger, Apache Atlas, Superset, Apache Hue, Apache NIFI, Kerberos, Postgresql, Ansible, Helm, Kubernetes, SQL, Linux (Centos), Shell, docker, Gitlab
DÉVELOPPEUR FULL STACK & DATA & BIG DATA
SNCF RESEAUX
juillet 2019 - juillet 2022
Projet : dans le cadre du centre de compétence Data de SNCF réseau, intervention sur un ensemble de 7 projets :
 AGORA : Développement d&rsquoune application pour gérer le gisement des données SNCF via une interface Web : cette solution permets aux utilisateurs d&rsquoafficher et manipuler les données tout en offrant un Tracking des modifications via des historisations et des pistes d&rsquoaudit (suppression, update,&hellip) et de documenter les données via une interface graphique (définition de règles et de relations entre le objets).
 DEC BOX : Solution d&rsquointerface utilisateur mutualisée pour un vaste ensemble de base de données (SQL, API, AWS S3,KAFK , HDFS/Hadoop, UNIX&hellip)
o développement d&rsquoune interface web Angular présentant les outils nécessaires pour manipuler les différentes sources de données
o Développement de clients Java intégrant les services/SDK des différentes sources de données.
o Modélisation et création d'une base de données opérationnelle pour le stockage des données de l'application (PostgreSQL)
 OPALE : Application de Reporting et d&rsquoAnalytics sur les indicateurs SNCF Réseau
o Développement d&rsquoune Application Web présentant des Dashboards restituant les indicateurs techniques des réseaux SNCF
 CARBONNE : Application de simulation de planification de projets et d&rsquointervention sur les rails
 SOCLE : Projet de plateforme mutualisé de serveur Web Tomcat
 Tableau : Création de composants graphique pour les Dashboard Tableau
o Développement d&rsquoune application Angular implémentant la bibliothèque Tableau pour les Embedded component
o Développement des fonctionnalités Java/SQL pour chaque opération faite par le composant graphique
o Modélisation avec l&rsquoéquipe data des tables AWS Athéna
 DEC9 : Solution d&rsquoETL pour alimenter les données d&rsquoune application BI Anaplan, basée sur une paramétrage via un interface WEB pour définir les transformations, formatage,&hellip
o Développement d&rsquoune interface Web Angular pour choisir la transformation métier à appliquer
o Développement d&rsquoune application Java Backend pour :
ï‚§ Récupérer les données depuis Anaplan avec l&rsquoapi Rest
ï‚§ Développement de la logique métier de chaque transformation proposée dans le front
ï‚§ Réinjecter les données transformées dans Anaplan
 CDG-TELECOM : Solution d&rsquoETL pour alimenter les données d&rsquoune application BI Cognos TM1, basée sur une paramétrage via un interface WEB pour définir les transformations, formatage,&hellip
o Développement d&rsquoune interface web Angular pour restituer les données récupérées er lancer les routines de transformation métier COGNOS
o Développement d&rsquoune application Java Backend pour
ï‚§ Récupérer les données depuis les cubes IBM Cognos,
ï‚§ Appliquer les règles de transformation métier sur les données
ï‚§ Exposer les données à travers une interface Rest.
ï‚§ Réinjecter les données transformées dans les Cubes
o Participation à la conception de nouvelles Cubes sur IBM Cognos avec l&rsquoéquipe socle data
Activités :
 Architecture et conceptions
 Développements :
o Data Engineering
o Full-Stack : back-end et front
 Déploiements des applications et préparation des environnements logiciel sur les servers ou sur le cloud
 Maintenance corrective et évolutive
Environnement technique : Java 8 , Spring boot, Kafka, Scala, Spark, Maven, Angular, AWS, ELK (pour l'indexation des logs applicatifs), Tomcat, L...