Au sein de l’équipe Vivier Data, J'ai travaillé sur les projets Dataiku suivants :
IMPORT : Étude et déploiement de solution pour construire des indicateurs liés aux plis qui arrivent de l’étranger.
Trafic : Déploiement d’une solution pour construire et analyser des indicateurs liés au Trafic entre bureau de poste et restitution des données sous forme de rapports générés à partir d’une application.
RECHERCHE : Mise en place d’une solution pour la recherche et l’analyse de plis.
QUALITÉ SERVICE : Déploiement d’une solution qui permet le calcul d’indicateurs liés aux délais
d’affranchissement des plis jusqu’à leur distribution et la restitution des indicateurs sous forme de rapports.
Mes responsabilités sont les suivantes :
Une collaboration continue avec le client pour définir les besoins et les spécifications.
Analyse et modélisation du processus du traitement de la données en représentation Data et BPMN.
Calcul d'indicateurs KPI reliés au délais et volume du traffic des plis. (Volumétrie des données : 40Go/jour).
Développement de la pipeline ETL sur Dataiku.
Etude et optimisation fonctionnelle et technique du flux de données
Restitution des données dans un tableau de bord et dans des rapports développés avec Dataiku et Python.
Industrialisation avec PySpark et Hive. Déploiement sur la plate-forme Cloudera de La Poste.
Migration d’un projet SAS vers la plate-forme Dataiku (Pyspark, Hive, Python)
Industrialisation de 4 projets.
En interne, j'ai effectué des formations en :
Snowflake ( 2 semaines)
Talend [ETL-BI] ( 2 semaines)
Chargement de données liées aux prêts bancaires sur Hive avec Spark.
Configuration avancée de Hive et partitionnement des tables stockés en ORC.
Génération de masses de données aléatoires qui ont la même structure que les données de Banque De France et études comparatives de solutions pour optimiser les données tout en respectant leur confidentialité.
Tuning des traitements Spark et stockage HDFS.
Correction de la qualité de la données avec Hive et Spark.
Étude et déploiement d'une solutions Data Catalog sur le Datalake de Décathlon
- Configuration de Apache Kafka et ElasticSearch et les connecter avec Datahub afin d'envoyer les métadonnées.
Configurer des crawlers sur les sources du Datalake de Décathlon (S3, Hive, CSV...) afin d'alimenter le Data Catalog.
En interne, j'ai réalisé les projets suivants :
Etude et conception d'une la data-plateforme qui assure le stockage, le traitement, l'analyse des données avec les services OVH Cloud.
Développement et optimisation de scripts en Spark-Scala pour la génération de 1 To de datasets qui contiennent des données synthétiques, des données métier proches de données réelles en 15 minutes. Les
données suivent des distributions statistiques proches de la réalité
Faire une étude comparative entre les performances d'Athéna et Imply.
Projet principal portant sur l'imagerie satellites.
Chargement des données liées aux images satellites et données météorologiques avec Scala sur Spark.
Développement de modèles d'apprentissage avec Python et Sickit-learn.
Déterminer le type de parcelle agricole avec du Machine Learning (est-ce que la parcelle contient du blé, du mais, …)
De proposer des services de tendances/prédictifs avec Dataiku et industrialisation de la solution.
Déploiement d'une solution Apache Druid pour l'ingestion des données streaming et batch sur AWS
- Tuning du cluster Druid afin d'accélérer l'ingestion des données en temps réel et les requêtes client
- Automatiser le déploiement d'Apache Druid et Kafka sur AWS avec Terraform et Ansible.
- Développer les mécanismes et bonnes pratiques pour rétablir les services analytiques basés sur Apache DRUID en cas de perte de service.
- Mise en place d'une solution OLAP Apache Kylin sur un multi-clusters AWS EMR chez Décathlon.
Tête de pont entre la maîtrise d'ouvrage et le développement technique.
Déploiement et configuration de clusters EMR inter-communiquant afin d'assurer une architecture scalable et résiliente.
Chargement des données à partir du Datalake Décathlon (AWS S3) avec Hive.
Transformation des données et application de règles de gestion avec Pyspark.
Automatisation du déploiement de cluster EMR, EC2 et cluster HBase avec Terraform et Jenkins.
Développement d'un POC pour le déploiement d'Apache Kylin sur Google Cloud Platform.