Moussa - Data Scientist APACHE HADOOP

Ref : 200320K003
Photo de Moussa, Data Scientist APACHE HADOOP
Compétences
APACHE HADOOP
APACHE HBASE
APACHE HIVE
APACHE KAFKA
R
Expériences professionnelles
  • EXPÉRIENCES

    Ingénieur BIG DATA
    Depuis Juin 2017
    GROUPE EDF, DIRECTION
    COMMERCE

    Projet : VERONE DATALAKE
    VERONE est un entrepôt de données concernant le marché des clients particuliers d’EDF.
    Son objet est de mettre à disposition des SI externes des données nécessaires pour réaliser toute étude
    statistique, analyse ou extraction de données concernant les clients particuliers.
    Ma mission s’inscrit dans le cadre du projet E.quilibre 2016-Suivi de la Consommation Réelle en Energie
    (SCORE), un projet mis en place à la suite du déploiement à l’échelle nationale des compteurs LINKY et GAZPAR
    Objectif de la mission : Mettre en place un nouveau flux de publication de données entre VERONE et EDELIA
    (Filiale d’EDF).
    Objectif métier : Permettre à chaque client ayant souscrit au service E.quilibre de suivre sur son espace client
    sa consommation quotidienne en électricité et gaz relevées par le biais des compteurs communicants Linky
    et GAZPAR.

    Principales contributions :
    Activités de développement
     Développer et maintenir des chaînes de traitements pour ingérer les flux de données en
    provenance d’ENEDIS et de GRDF.
     Développer et maintenir des applications métiers pour la gestion des consentements des clients
    aux relèves quotidiennes ELEC et GAZ dans le cadre du chantier GDPR.
     Développer et maintenir des applications pour la gestion des abonnements auprès de ENEDIS et
    de GRDF pour recevoir les index pour les clients qui ont consenti à la relève automatique via les
    compteurs LINKY et GAZPAR.
     Développement des plugins Java VALOCONSO pour la valorisation de la consommation périodique
    des clients.
     Support technique pour les équipe de recettes internes et transverses.
    Briques utilisées: hive, hbase, kafka, Elastic Search, Nifi
    Framework : spark, map reduce
    Langages : Java, scala, python, sh, ksh.
    Outils d’ordonnancement : oozie, crontab.
    Activités de support à la production
     Préparation des MEP : Préparer les livrables, rédiger la feuille de route, faire le transfert de Co à
    l’équipe de MCO.
     Suivre les actions de mises en production
     Support technique à l’équipe MCO pour résoudre les incidents de production
     Garantir la sécurité et la mise en cohérence des applications livrées en production
    Activités de pilotage technique
     Encadrer et aider à la montée en compétence des nouveaux développeurs arrivés.
     Mettre en place des normes de dev
     Revue et validation de code
     Suivre l’application des normes devOps
     Conduire les chantiers techniques : upgrade du cluster hadoop, application des normes gitflow,
    chantier de tests automatisés cucumber, etc.

    Ingénieur Data Scientist
    Août 2018-Septembre 2018 (1 mois)
    GROUPE AG2R LA MONDIALE
    Projet : Mise en place d’un process d’industrialisation et de mise en production des applications de
    Machine Learning.
    Dans une plateforme en dehors de Socle Data centré (cluster Hadoop), les équipes datascience ont menées
    des expérimentations qu'ils souhaitent mettre en production. La mission a deux volets. D’une part, mettre en
    place des critères standards que toutes applications ML doivent respectées pour passer en production.
    D’autre part, préconiser des évolutions nécessaires sur l’environnement de production afin de pouvoir
    accueillir toutes les applications validées.
    Principales contributions :
     Construction des standards d’évaluation (Grille d’évaluation)
    EXPÉRIENCES
     Produire le document de cadrage pour l’industrialisation d’algorithmes de Machine-Learning
    sur le socle SODA
     Définir un process pour le déploiement d’une application ML en production
     Industrialisation du poc « DeepName »

    Ingénieur BIG DATA/Data
    Scientist
    Mars 2017-Mai 2017 (2 mois)
    GROUPE GRDF
    Projet : Cartographie décisionnelle spatiale GNV
    Le projet porte sur le développement d’une Infrastructure de Données Spatiales (IDS). Les données du réseau
    GRDF sont difficilement accessibles et exploitables en raison de leur confinement actuellement dans des
    systèmes propriétaires rendant l’élargissement de leurs usages au sein de GRDF complexe. Pour la production
    de cartes géodécisionnelles, tous les utilisateurs concernés (métiers de GRDF et SI) sont pénalisés par la
    dissémination des données géospatiales qui rend leurs croisements difficiles, voire impossibles. Le projet avait
    pour ambition de :
    - Structurer les services et applications spatiales existantes autour d’un socle décisionnel
    spatial.
    - Décloisonner les données historiquement contenues dans les SI transactionnels pour
    favoriser leur usage au sein du pôle SI géospatial, de GRDF et à l’externe.
    - Mettre en place une solution technique adaptée pour l’intégration et la mise à disposition
    des données externes (Externes GRDF, voire externes au pôle géospatial).
    Principales contributions :
     Cadrage applicatif et architecture fonctionnelle
     Cadrage technique et méthodologie
     Recueil des règles métiers de calcul des indicateurs
     Maillage cartographique à trois niveaux : niveau casé 200x200, niveau commune et
    agglomération de communes.
     Conception et implémentations de traitements Spark de calculs des indicateurs selon les
    trois niveaux de maillage
     Déploiement d’un cluster amazon EMR pour le calcul des indicateurs
     Implémentation de traitement pour la collecte des données sous Python et leur dépôt sur
    amazon s3
     Mise en place et configuration d’un cluster Elastic-Search pour l’indexation de données
    issues du calcul des indicateurs
     Visualisation cartographique des indicateurs dans ESRI Geoportal et Kibana

    Data Scientist
    Mai-Juin 2015 (1 mois)
    GROUPE ELSAN
    Projet : Outil d’intelligence artificielle de classification automatiques des journaux achats.
    Le groupe ELSAN dispose d’un ensemble de fichiers de journaux d’achats de différents types de produits (IT,
    telecom, maintenance, etc…). Il voudrait pouvoir classifier ces achats en faisant ressortir plusieurs groupes de
    classification : Fournisseur, Rubrique, Sous-Rubrique, Domaine, Nature et Périmètre. Jusque-là les
    classifications ont été faites manuellement. Mais ils ont aussi testé des méthodes automatiques de
    classification comme par exemple les Randoms Forests (qui ont été d’une très faible performance). ELSAN a
    donc souhaité être accompagné afin d’élaborer un outils classification automatique. Le projet est censé se
    dérouler en deux phases : La première phase : Proposer un POC montrant la faisabilité technique du projet.
    La seconde étape : Passer en phase d’industrialisation si le POC est satisfaisant.
    Principales contributions :
     Atelier de prise de contact et de discussion technique
     Traitement et organisation des fichiers de données sources
     Constitution des échantillons d’apprentissage et de validation
     Choix des algorithmes d’apprentissage et de classification
     Ecriture des scripts python
     Exécution des scripts et pushing des outputs vers PowerBI
     Data visualisations et conception des Dashboard dans PowerBI
     Présentation de la démo sur l’efficacité du POC.

    Big Data Analyst
    Du 15 au 19 Mai 2017 (5jours)
    GROUPE OUEST-France
    Projet : Formation sur l’utilisation de R sur des grosses volumétries des données stockées dans une
    plateforme hadoop :Use-case sur les données « connaissance-client » de Ouest France
    Principales contributions :
     Introduction à SparkR
     Savoir lire et écrire les données à partir de SparkR
     Revue des fonctions d’actions et de transformations dans SparkR
     Gestion de dataframes
     Les étapes du déploiement d’une application sparkR
     Machine-learning avec SparkR

Études et formations
  • Expertise technique
     Méthodes statistiques
     Algorithmes de machine Learning
     Data /Big Data Engineering
     Solutions et Architecture distribuées
     Langage de programmation : Java, Python, Scala, R, SAS, SPSS,...
    Développement d’application Big data / Data Science
     Conception et Spécification (SFD, SFTD)
     Ecriture de code (java, scala, python, sh, ksh,)
     Industrialisation et Maintien en Conditions Opérationnelles(MCO)
     Assistance fonctionnelle/Assistance utilisateurs
     Préconisation, mise en place de normes de Dev, Revue et
    Validation de code.
    Méthode de gestion Projet
     Cycle en V
     Méthode AGILE : SCRUM
    R&D
     Recherche opérationnelle

    FORMATIONS

    DIPLÔMES

    Master 2 Statistique et Econométrie appliquées au développement : UDA ClermontFerrand (2014)
    Domaines d’étude : Statistique, Informatique décisionnelle, Economie, Econométrie,
    Finance, Marketing.

    LANGUES

    Français - Langue maternelle
    Anglais - Excellent niveau (Score TOEIC : 935, passé en décembre 2016)

D'autres freelances
Data Scientist APACHE HADOOP

Ces profils pourraient vous intéresser !
CV Consultant Data
Ababacar

Consultant Data

  • PARIS
SQL APACHE SPARK PYTHON APACHE HADOOP BIG DATA DATA Microsoft Power BI AZURE SCALA
Bientôt disponible
CV Data Analyst | Ingénieur PLM
John Wilfred

Data Analyst | Ingénieur PLM

  • LE CHESNAY
PYTHON APACHE SPARK SQL Microsoft Power BI DATA APACHE HADOOP POSTGRESQL BIG DATA JAVA SCALA
Disponible
CV Data engineer
Alain

Data engineer

  • PARIS
SQL PYTHON Google Cloud Platform APACHE SPARK TALEND SSIS APACHE HADOOP HASHICORP TERRAFORM ANSIBLE BIG DATA
Disponible
CV Data engineer IA
Nathan

Data engineer IA

  • PARIS
APACHE HADOOP PYTHON SQL APACHE SPARK BIG DATA DATA Data science AMAZON AWS AMAZON EC2 REACT.JS
Disponible
CV Data Scientist | Analyste | ML Ingenieur PYTHON
Mohamed

Data Scientist | Analyste | ML Ingenieur PYTHON

  • MONTREUIL
PYTHON SQL DATA Microsoft Power BI EXCEL APACHE SPARK Google Cloud Platform UML APACHE HADOOP
Disponible
CV Data Engineer cloud/ Big data
Aubain

Data Engineer cloud/ Big data

  • NOISY-LE-GRAND
SQL PYTHON DATA APACHE HADOOP AZURE Google Cloud Platform BIG DATA SCALA Microsoft Power BI APACHE SPARK
CV Big data engineer / Cloud engineer
Kamelia

Big data engineer / Cloud engineer

  • ASNIÈRES-SUR-SEINE
BIG DATA APACHE SPARK SCALA Google Cloud Platform DATA PYTHON APACHE HADOOP SQL
CV Data Engineer / Data Modeler
Ahmed

Data Engineer / Data Modeler

  • MALAKOFF
APACHE HADOOP PYTHON SQL APACHE SPARK Data science BIG DATA JAVA Google Cloud Platform DATA HASHICORP TERRAFORM
Disponible
CV Data Analyst , Data Ingénieur,Data Architecte
Gnankoye

Data Analyst , Data Ingénieur,Data Architecte

  • MONTREUIL
AZURE Cloudera PYSPARK APACHE SPARK PYTHON SQL SERVER POSTGRESQL APACHE HADOOP SQL MYSQL
Disponible
CV Data Scientist PYTHON
Amina

Data Scientist PYTHON

  • RUEIL-MALMAISON
PANDAS OPENCV PYTHON APACHE SPARK APACHE HADOOP SQL NoSQL DOCKER ELK GIT