Belahdji - Data Analyst APACHE SPARK

Ref : 220508M003

Email vérifié

75001 PARIS
Data Analyst (29 ans)
Totalement mobile
En portage salarial

Compétences

APACHE SPARK

PYTHON

APACHE HADOOP

Expériences professionnelles

CV plus récent en cours de mise à jour

De mars
2021 à
avril 2022
Consultant Big Data Engineer
LA POSTE Saint-Quentin-en-Yvelines, Ile-De-France
Consultant Aydon Technologies
Client : La DRIC (Direction du Réseau Industriel du Courrier)
Au sein de l’équipe Vivier Data, J'ai travaillé sur les projets Dataiku suivants :
IMPORT : Étude et déploiement de solution pour construire des indicateurs liés aux plis qui arrivent de
l’étranger.
Trafic : Déploiement d’une solution pour construire et analyser des indicateurs liés au Trafic entre bureau de
poste et restitution des données sous forme de rapports générés à partir d’une application.
RECHERCHE : Mise en place d’une solution pour la recherche et l’analyse de plis.
QUALITÉ SERVICE : Déploiement d’une solution qui permet le calcul d’indicateurs liés aux délais
d’affranchissement des plis jusqu’à leur distribution et la restitution des indicateurs sous forme de rapports.
Mes responsabilités sont les suivantes :
Une collaboration continue avec le client pour définir les besoins et les spécifications.
Analyse et modélisation du processus du traitement de la données en représentation Data et BPMN.
Calcul d'indicateurs KPI reliés au délais et volume du traffic des plis. (Volumétrie des données : 40Go/jour).
Développement de la pipeline ETL sur Dataiku.
Etude et optimisation fonctionnelle et technique du flux de données
Restitution des données dans un tableau de bord et dans des rapports développés avec Dataiku et Python.
Industrialisation avec PySpark et Hive. Déploiement sur la plate-forme Cloudera de La Poste.
Migration d’un projet SAS vers la plate-forme Dataiku (Pyspark, Hive, Python)
Industrialisation de 4 projets.
Méthode de Travail : Scrum, Conception Orienté Métier (DDD)
Environnement technique : Spark, Python, Hive, Dataiku, Cloudera, Git, Jupyter, Office Excel

De mars
2021 à
avril 2022
Consultant Data Engineer
Aydon Technologies Levallois-Perret, France
En interne, j'ai effectué des formations en :
Snowflake ( 2 semaines)
Talend [ETL-BI] ( 2 semaines)

De
novembre
2018 à
mars 2021
Consultant Big Data
Novagen Neuilly-Sur-Seine, Île-De-France
En interne, j'ai réalisé les projets suivants :
Etude et conception d'une la data-plateforme qui assure le stockage, le traitement, l'analyse des données
avec les services OVH Cloud.
Développement et optimisation de scripts en Spark-Scala pour la génération de 1 To de datasets qui
contiennent des données synthétiques, des données métier proches de données réelles en 15 minutes. Les
données suivent des distributions statistiques proches de la réalité
Faire une étude comparative entre les performances d'Athéna et Imply.
Technologies : Spark(Sparksql, RDD), Scala, AWS EMR, Athéna,
Quicksight, OVH Cloud

D'octobre
2019 à
août 2020
Consultant Big Data Engineer
Banque De France Paris
Consultant Novagen
Client : Equipe Data Scientist et Data Analyst qui utilise l'outil Power BI, SAS, R.
Chargement de données liées aux prêts bancaires sur Hive avec Spark.
Configuration avancée de Hive et partitionnement des tables stockés en ORC.
Génération de masses de données aléatoires qui ont la même structure que les données de Banque De
France et études comparatives de solutions pour optimiser les données tout en respectant leur
confidentialité.
Tuning des traitements Spark et stockage HDFS.
Correction de la qualité de la données avec Hive et Spark.

De
décembre
2018 à
octobre
2019
Consultant Big Data Engineer
Décathlon La Défense, Île-De-France
Consultant Novagen
Étude et déploiement d'une solutions Data Catalog sur le Datalake de Décathlon
- Configuration de Apache Kafka et ElasticSearch et les connecter avec Datahub afin d'envoyer les
métadonnées.
Configurer des crawlers sur les sources du Datalake de Décathlon (S3, Hive, CSV...) afin d'alimenter le Data
Catalog.
Environnements techniques : Kafka, Airflow, Datahub, ElasticSearch, Neo4J, python
Déploiement d'une solution Apache Druid pour l'ingestion des données streaming et batch sur AWS
- Tuning du cluster Druid afin d'accélérer l'ingestion des données en temps réel et les requêtes client
- Automatiser le déploiement d'Apache Druid et Kafka sur AWS avec Terraform et Ansible.
- Développer les mécanismes et bonnes pratiques pour rétablir les
services analytiques basés sur Apache DRUID en cas de perte de service.
Environnements techniques : AWS, Apache Druid, Apache Kafka, Terraform, Ansible
- Mise en place d'une solution OLAP Apache Kylin sur un multi-clusters AWS EMR chez Décathlon.
Tête de pont entre la maîtrise d'ouvrage et le développement technique.
Déploiement et configuration de clusters EMR inter-communiquant afin d'assurer une architecture scalable et
résiliente.
Chargement des données à partir du Datalake Décathlon (AWS S3) avec Hive.
Transformation des données et application de règles de gestion avec Pyspark.
Automatisation du déploiement de cluster EMR, EC2 et cluster HBase avec Terraform et Jenkins.
Développement d'un POC pour le déploiement d'Apache Kylin sur Google Cloud Platform.
Environnements techniques:
Pyspark, Spark Streaming, Hadoop, Hive, Hbase, HDFS, Terraform , AWS, GCP

D'avril
2018 à
octobre
2018
Stagiaire Data Engineer
Integrytis Paris
Clients : Utilisateurs dans le domaine agro-alimentaire.
Projet principal portant sur l'imagerie satellites.
Chargement des données liées aux images satellites et données météorologiques avec Scala sur Spark.
Développement de modèles d'apprentissage avec Python et Sickit-learn.
Déterminer le type de parcelle agricole avec du Machine Learning (est-ce que la parcelle contient du blé, du
mais, …)
De proposer des services de tendances/prédictifs avec Dataiku et industrialisation de la solution.
Environnements techniques
+ Spark, Scala, Python, Hive, Dataiku

Études et formations

CV plus récent en cours de mise à jour

Diplômes et Formations
De
septembre
2017 à
septembre
2018
Master 2 : Masses de Données et Images
Université Cergy Pontoise Cergy
Spark/Hadoop
Réseaux de neurones et machine learning
Data Quality

De 2012 à
2017
Ingénieur en systèmes informations
Ecole Supérieure d’Informatique (ESI) Algérie

De juin
2017 à
août 2017
Formation Management & Business
Kelley Business School Indiana University, Indiana, États-Unis