(MDM) Master Data Management :
Un projet qui vise à centraliser et normaliser les données provenant de divers fournisseurs
d'électricité, garantissant ainsi leur qualité et cohérence pour une utilisation optimale par les
utilisateurs finaux.
Mission(s) et réalisations :
• Comprendre les besoins métiers des feature-teams et les aider/guider dans le choix de la
solution technique à mettre en place.
• Développer des briques techniques optimales pour :
o Collecter les fichiers des courbes de charges de différents source (ENEDIS, RTE, Fredi,
MultiEld…) depuis les serveurs FTP ou les buckets S3.
o Ingérer des données hétérogènes à forte volumétrie, enrichir les trois couches de Datalake
(Bronze, Silver et Gold).
o Créer et consommer des APIs et fournir des données propres et exploitables par les endusers.
• Automatisation et orchestration des jobs Spark avec Airflow.
• Proposer des POC aux chefs de projets data et chiffrer les solutions techniques envisageables.
• Former les personnes techniques et métiers à l'utilisation de la plateforme data de l'entreprise
et les outils mis à disposition.
• Assurer la MCO de l’infrastructure et des composantes logicielles de la plateforme data liée à
l'activité de l'équipe.
• Proposer des ateliers techniques réguliers pour discuter les bonnes pratiques de code et de CICD
ainsi que pour faire du housekeeping.
(C-Track) Carbon Track :
Solution qui recueille des données pour chaque étape du cycle de vie du GNL, calcule l’empreinte
GES estimée et réelle pour chaque cargaison de GNL, crée des rapports associés et affiche les
données sur un tableau de bord.
Mission(s) et réalisations :
• Organisation des meetings avec les utilisateurs pour définir les besoins.
• Assistance au cadrage du projet.
• Développement des fonctions lambda pour :
o Ingérer les fichiers de différentes sources (Planet, Woodmac, Harpe) dans S3 en Format
parquet (Bronze layer).
o Ingérer les données des Cargaisons GNL depuis l’Api Signal dans S3 en Format parquet
(Bronze laye).
o Traiter, consolider, nettoyer, enrichir les données de la couche bronze et stocker les
résultats dans des tables Athena (Silver Layer).
o Calculer les features et l’empreinte GES et stocker les résultats dans les datamart afin de la
visualiser dans les tableaux de bord et de générer les rapports (Gold layer).
o Générer les rapports et de les envoyer vers les clients et les traders de GNL.
• Préparation et réalisation des tests unitaires, non-régression et d’intégration.
• Développement State Machine dans Step Function pour automatiser le lancement des lambda.
• Développement des pipelines GitHub Actions pour :
o Initialiser les buckets, base de données et tables
o Déployer les fonctions Lambda.
o Déployer les Dags Step Function.
• Réalisation de la revue de code avec les Développeurs.
• Participation aux tests de Qualifications (Pré production /Production).
• Préparation de transfert du projet à l’équipe run.
Projet
Mise en place du Datalake pour la française des jeux en mode open source en respectant l’architecture lambda et Mise à disposition des données provenant de différentes sources (Streaming et batch) afin d'être proprement exploitées par des acteurs tierces.
Mission(s) et réalisations
Mise en place du Datalake :
Développement/MEP des formules Salt pour instanciation de cluster kafka en Swarm avec le build des images Kafka, Zookeeper et Kafka Manager par Gitlab CI.
Développement/MEP des formules Salt pour instanciation de cluster ELK avec le build des images Elasticsearch et Kibana par Gitlab CI.
Développement/MEP des formules Salt pour instanciation de cluster Nifi en Swarm avec le développement des nouveaux processors et les intégrer et le build de l’image par Gitlab CI.
Tunnig de la couche speed layer pour avoir des très bonnes performances (≃1.7 milliards d’évents/jour).
Migration de ELK à chaud de la version 6.x au 7.x.
Développement/MEP des formules Salt pour l’instanciation à chaud de cluster Elasticsearch hors containerisation.
Développement/MEP des formules Salt pour l’instanciation de l’écosystème de Hadoop (Ambari, HDFS, Hbase, Phoenix, Spark, Hive, Kerberos, Ranger, Knox…) avec la distribution Hortonworks.
Développement/MEP des formules Salt pour l’instanciation de Jupyter et Hue pour les Data Scientists en Docker et avec le build des images par Gitlab CI.
Développement des formules Salt pour le téléchargement des jobs Spark de Nexus et le déploiement dans les serveurs d’ingestion.
Développement des formules Salt et un script Python pour la création des tables Hive avec les vues.
Gestion des problèmes liés à la sécurisation du cluster (kerberos, Ranger, SSL, KNOX).
Administration du Datalake :
Configuration de cluster ELK avec les rollovers, sharding et les templates des index et les différents paramètres.
Création des espaces kibana pour les équipes et la gestion des droits d’accès aux différents index et dashboards.
Création des topics Kafka avec leurs paramètres avec Kafka Manager.
Création des dashboards dans Grafana pour le monitoring de la couche Speed Layer.
Développement :
Développement des workflow Nifi pour l’ingestion des events dans Kafka en streaming.
Développement des workflow Nifi pour la lecture de Kafka, nettoyage, enrichissement et l’indexation des events de type logs dans Elasticsearch.
Création des dashboards Kibana pour la visualisation des index.
Développement des jobs Spark en Scala, Java Maven et avec le build par Gitlab CI pour :
Ingestion des fichiers de différents formats dans HDFS en Format parquet compressé et partitionné.
Archivage des fichiers en format brut.
Chiffrement des données personnelles (Pseudo anonymisation).
Déchiffrement de la donnée par Spark ou Hive (développement des udf Spark et Hive).
Purge des données personnelles après un certain temps.
Compactage des petits fichiers dans HDFS et s'assurer que le nombre de fichiers ne prolifère pas.
Traçage et récupération des métadonnées pour toutes les étapes de traitement de la donnée et les indexer dans Elasticsearch.
Automatisation et orchestration des chaines de traitement avec Airflow.
Création des dashboards avec Kibana pour tracer tout le parcours de la donnée.
Amélioration de performance des jobs Spark.
Accompagnement des data scientists.
Optimisation des traitements data science (les jobs Spark en Python).
Projet
Ingestion des donnés dans DataLake en mode batch et streaming et développement et évolution des cas d’usage.
Mission(s) et réalisations
Organisation des meetings avec les clients pour définir le besoin.
Analyse des besoins utilisateurs en termes de données à intégrer dans le Datalake.
Développement des jobs Spark pour ingérer les données dans Datalake sous différents formats en mode batch.
Développement des jobs Spark Streaming pour consommer depuis Kafka et consolider les évents (logs) dans des fichiers afin de les ingérer dans Datalake en mode batch (archivage des logs).
Développement des jobs Spark pour récupère les logs archivés dans ...
• Organisation des meetings avec les utilisateurs pour définir les besoins.
• Assistance au cadrage du projet.
• Analyse des besoins des data scientists en termes de données à intégrer dans le Datalake.
• Développement des jobs Spark/Spark streaming pour :
o Ingérer en temps réel les données temporelles depuis EventHub dans Datalake sous formats
Deltalake.
o Ingérer les données historiques temporelles sous format Deltalake.
o Interpoler, extrapoler et rééchantillonner les données temporelles.
o Calculer les features pour les modèles machine Learning.
o Entrainer les modèles machine Learning pour le calcul de la “state probability et time to
failure”.
o Versionner les modèles machine Learning dans MLflow.
o Prédire “state probability et time to failure” pour les composants des compresseurs AKPO,
DALIA et AMENAM.
o Préparer les Datamarts pour le back/front end.
• Amélioration de la performance des jobs Spark.
• Préparation et réalisation des tests unitaires, non-régression et d’intégration.
• Développement des jobs Databricks pour automatiser le lancement des jobs Spark.
• Développement des pipelines Teraform pour :
o Déployer les cluster Databricks.
o Monter l’Azure datalake storage à Databricks.
o Déployer les jobs Spark.
• Réalisation de la revue de code avec les Développeurs.
• Participation aux tests de Qualifications (Pré production /Production).
• Préparation de transfert du projet à l’équipe run.