Belahdji - Data Analyst APACHE SPARK

Ref : 220508M003
Email vérifié
Photo de Belahdji, Data Analyst APACHE SPARK
Compétences
APACHE HADOOP
Expériences professionnelles
CV plus récent en cours de mise à jour
  • De mars
    2021 à
    avril 2022
    Consultant Big Data Engineer
    LA POSTE Saint-Quentin-en-Yvelines, Ile-De-France
    Consultant Aydon Technologies
    Client : La DRIC (Direction du Réseau Industriel du Courrier)
    Au sein de l’équipe Vivier Data, J'ai travaillé sur les projets Dataiku suivants :
    IMPORT : Étude et déploiement de solution pour construire des indicateurs liés aux plis qui arrivent de
    l’étranger.
    Trafic : Déploiement d’une solution pour construire et analyser des indicateurs liés au Trafic entre bureau de
    poste et restitution des données sous forme de rapports générés à partir d’une application.
    RECHERCHE : Mise en place d’une solution pour la recherche et l’analyse de plis.
    QUALITÉ SERVICE : Déploiement d’une solution qui permet le calcul d’indicateurs liés aux délais
    d’affranchissement des plis jusqu’à leur distribution et la restitution des indicateurs sous forme de rapports.
    Mes responsabilités sont les suivantes :
    Une collaboration continue avec le client pour définir les besoins et les spécifications.
    Analyse et modélisation du processus du traitement de la données en représentation Data et BPMN.
    Calcul d'indicateurs KPI reliés au délais et volume du traffic des plis. (Volumétrie des données : 40Go/jour).
    Développement de la pipeline ETL sur Dataiku.
    Etude et optimisation fonctionnelle et technique du flux de données
    Restitution des données dans un tableau de bord et dans des rapports développés avec Dataiku et Python.
    Industrialisation avec PySpark et Hive. Déploiement sur la plate-forme Cloudera de La Poste.
    Migration d’un projet SAS vers la plate-forme Dataiku (Pyspark, Hive, Python)
    Industrialisation de 4 projets.
    Méthode de Travail : Scrum, Conception Orienté Métier (DDD)
    Environnement technique : Spark, Python, Hive, Dataiku, Cloudera, Git, Jupyter, Office Excel

    De mars
    2021 à
    avril 2022
    Consultant Data Engineer
    Aydon Technologies Levallois-Perret, France
    En interne, j'ai effectué des formations en :
    Snowflake ( 2 semaines)
    Talend [ETL-BI] ( 2 semaines)

    De
    novembre
    2018 à
    mars 2021
    Consultant Big Data
    Novagen Neuilly-Sur-Seine, Île-De-France
    En interne, j'ai réalisé les projets suivants :
    Etude et conception d'une la data-plateforme qui assure le stockage, le traitement, l'analyse des données
    avec les services OVH Cloud.
    Développement et optimisation de scripts en Spark-Scala pour la génération de 1 To de datasets qui
    contiennent des données synthétiques, des données métier proches de données réelles en 15 minutes. Les
    données suivent des distributions statistiques proches de la réalité
    Faire une étude comparative entre les performances d'Athéna et Imply.
    Technologies : Spark(Sparksql, RDD), Scala, AWS EMR, Athéna,
    Quicksight, OVH Cloud

    D'octobre
    2019 à
    août 2020
    Consultant Big Data Engineer
    Banque De France Paris
    Consultant Novagen
    Client : Equipe Data Scientist et Data Analyst qui utilise l'outil Power BI, SAS, R.
    Chargement de données liées aux prêts bancaires sur Hive avec Spark.
    Configuration avancée de Hive et partitionnement des tables stockés en ORC.
    Génération de masses de données aléatoires qui ont la même structure que les données de Banque De
    France et études comparatives de solutions pour optimiser les données tout en respectant leur
    confidentialité.
    Tuning des traitements Spark et stockage HDFS.
    Correction de la qualité de la données avec Hive et Spark.

    De
    décembre
    2018 à
    octobre
    2019
    Consultant Big Data Engineer
    Décathlon La Défense, Île-De-France
    Consultant Novagen
    Étude et déploiement d'une solutions Data Catalog sur le Datalake de Décathlon
    - Configuration de Apache Kafka et ElasticSearch et les connecter avec Datahub afin d'envoyer les
    métadonnées.
    Configurer des crawlers sur les sources du Datalake de Décathlon (S3, Hive, CSV...) afin d'alimenter le Data
    Catalog.
    Environnements techniques : Kafka, Airflow, Datahub, ElasticSearch, Neo4J, python
    Déploiement d'une solution Apache Druid pour l'ingestion des données streaming et batch sur AWS
    - Tuning du cluster Druid afin d'accélérer l'ingestion des données en temps réel et les requêtes client
    - Automatiser le déploiement d'Apache Druid et Kafka sur AWS avec Terraform et Ansible.
    - Développer les mécanismes et bonnes pratiques pour rétablir les
    services analytiques basés sur Apache DRUID en cas de perte de service.
    Environnements techniques : AWS, Apache Druid, Apache Kafka, Terraform, Ansible
    - Mise en place d'une solution OLAP Apache Kylin sur un multi-clusters AWS EMR chez Décathlon.
    Tête de pont entre la maîtrise d'ouvrage et le développement technique.
    Déploiement et configuration de clusters EMR inter-communiquant afin d'assurer une architecture scalable et
    résiliente.
    Chargement des données à partir du Datalake Décathlon (AWS S3) avec Hive.
    Transformation des données et application de règles de gestion avec Pyspark.
    Automatisation du déploiement de cluster EMR, EC2 et cluster HBase avec Terraform et Jenkins.
    Développement d'un POC pour le déploiement d'Apache Kylin sur Google Cloud Platform.
    Environnements techniques:
    Pyspark, Spark Streaming, Hadoop, Hive, Hbase, HDFS, Terraform , AWS, GCP

    D'avril
    2018 à
    octobre
    2018
    Stagiaire Data Engineer
    Integrytis Paris
    Clients : Utilisateurs dans le domaine agro-alimentaire.
    Projet principal portant sur l'imagerie satellites.
    Chargement des données liées aux images satellites et données météorologiques avec Scala sur Spark.
    Développement de modèles d'apprentissage avec Python et Sickit-learn.
    Déterminer le type de parcelle agricole avec du Machine Learning (est-ce que la parcelle contient du blé, du
    mais, …)
    De proposer des services de tendances/prédictifs avec Dataiku et industrialisation de la solution.
    Environnements techniques
    + Spark, Scala, Python, Hive, Dataiku

Études et formations
CV plus récent en cours de mise à jour
  • Diplômes et Formations
    De
    septembre
    2017 à
    septembre
    2018
    Master 2 : Masses de Données et Images
    Université Cergy Pontoise Cergy
    Spark/Hadoop
    Réseaux de neurones et machine learning
    Data Quality


    De 2012 à
    2017
    Ingénieur en systèmes informations
    Ecole Supérieure d’Informatique (ESI) Algérie

    De juin
    2017 à
    août 2017
    Formation Management & Business
    Kelley Business School Indiana University, Indiana, États-Unis

D'autres freelances
Data Analyst APACHE SPARK

Ces profils pourraient vous intéresser !
CV Data Engineer APACHE SPARK
Kayetan

Data Engineer APACHE SPARK

  • CHOISY-LE-ROI
APACHE SPARK SCALA SQL MAVEN PYTHON Cloud AWS DEVOPS DOCKER Github APACHE HIVE
Disponible
CV Consultant Data
Ababacar

Consultant Data

  • PARIS
SQL APACHE SPARK PYTHON APACHE HADOOP BIG DATA DATA Microsoft Power BI AZURE SCALA
Bientôt disponible
CV Data Analyst | Ingénieur PLM
John Wilfred

Data Analyst | Ingénieur PLM

  • LE CHESNAY
PYTHON APACHE SPARK SQL Microsoft Power BI DATA APACHE HADOOP POSTGRESQL BIG DATA JAVA SCALA
Disponible
CV Data Analyst & Data Engineer
Ali

Data Analyst & Data Engineer

  • FRANCONVILLE
Microsoft Power BI SQL SQL SERVER DATA AZURE APACHE SPARK PYTHON SSAS TABLEAU SOFTWARE BUSINESS OBJECTS
Disponible
CV Data Scientist APACHE SPARK
Meher

Data Scientist APACHE SPARK

  • CHEVILLY-LARUE
APACHE SPARK APACHE KAFKA
Disponible
CV Data Scientist | Analyste | ML Ingenieur PYTHON
Mohamed

Data Scientist | Analyste | ML Ingenieur PYTHON

  • MONTREUIL
PYTHON SQL DATA Microsoft Power BI EXCEL APACHE SPARK Google Cloud Platform UML APACHE HADOOP
CV Consultant Data
Boubaker

Consultant Data

  • PARIS
PYTHON APACHE HADOOP APACHE SPARK APACHE KAFKA JAVA SQL Cloud AWS LINUX SCALA Data science
Disponible
CV Data Scientist SAS
Yassir

Data Scientist SAS

  • STRASBOURG
SAS SQL PYTHON Microsoft Power BI DATA SCALA APACHE SPARK JAVA BIG DATA EXCEL
CV Data Scientist DATA
Ahlem

Data Scientist DATA

  • LA PLAINE-SAINT-DENIS
DATA SQL Microsoft Power BI PYTHON APACHE SPARK EXCEL SAS BI AZURE TALEND
Disponible
CV Data Analyst , Data Ingénieur,Data Architecte
Gnankoye

Data Analyst , Data Ingénieur,Data Architecte

  • MONTREUIL
AZURE Cloudera PYSPARK APACHE SPARK PYTHON SQL SERVER POSTGRESQL APACHE HADOOP SQL MYSQL
Disponible