Moussa - Data Scientist APACHE HADOOP
Ref : 200320K003-
75015 PARIS
-
Data Scientist, Data Analyst, Développeur (40 ans)
-
Totalement mobile
-
Freelance
EXPÉRIENCES
Ingénieur BIG DATA
Depuis Juin 2017
GROUPE EDF, DIRECTION
COMMERCE
Projet : VERONE DATALAKE
VERONE est un entrepôt de données concernant le marché des clients particuliers d’EDF.
Son objet est de mettre à disposition des SI externes des données nécessaires pour réaliser toute étude
statistique, analyse ou extraction de données concernant les clients particuliers.
Ma mission s’inscrit dans le cadre du projet E.quilibre 2016-Suivi de la Consommation Réelle en Energie
(SCORE), un projet mis en place à la suite du déploiement à l’échelle nationale des compteurs LINKY et GAZPAR
Objectif de la mission : Mettre en place un nouveau flux de publication de données entre VERONE et EDELIA
(Filiale d’EDF).
Objectif métier : Permettre à chaque client ayant souscrit au service E.quilibre de suivre sur son espace client
sa consommation quotidienne en électricité et gaz relevées par le biais des compteurs communicants Linky
et GAZPAR.
Principales contributions :
Activités de développement
Développer et maintenir des chaînes de traitements pour ingérer les flux de données en
provenance d’ENEDIS et de GRDF.
Développer et maintenir des applications métiers pour la gestion des consentements des clients
aux relèves quotidiennes ELEC et GAZ dans le cadre du chantier GDPR.
Développer et maintenir des applications pour la gestion des abonnements auprès de ENEDIS et
de GRDF pour recevoir les index pour les clients qui ont consenti à la relève automatique via les
compteurs LINKY et GAZPAR.
Développement des plugins Java VALOCONSO pour la valorisation de la consommation périodique
des clients.
Support technique pour les équipe de recettes internes et transverses.
Briques utilisées: hive, hbase, kafka, Elastic Search, Nifi
Framework : spark, map reduce
Langages : Java, scala, python, sh, ksh.
Outils d’ordonnancement : oozie, crontab.
Activités de support à la production
Préparation des MEP : Préparer les livrables, rédiger la feuille de route, faire le transfert de Co à
l’équipe de MCO.
Suivre les actions de mises en production
Support technique à l’équipe MCO pour résoudre les incidents de production
Garantir la sécurité et la mise en cohérence des applications livrées en production
Activités de pilotage technique
Encadrer et aider à la montée en compétence des nouveaux développeurs arrivés.
Mettre en place des normes de dev
Revue et validation de code
Suivre l’application des normes devOps
Conduire les chantiers techniques : upgrade du cluster hadoop, application des normes gitflow,
chantier de tests automatisés cucumber, etc.
Ingénieur Data Scientist
Août 2018-Septembre 2018 (1 mois)
GROUPE AG2R LA MONDIALE
Projet : Mise en place d’un process d’industrialisation et de mise en production des applications de
Machine Learning.
Dans une plateforme en dehors de Socle Data centré (cluster Hadoop), les équipes datascience ont menées
des expérimentations qu'ils souhaitent mettre en production. La mission a deux volets. D’une part, mettre en
place des critères standards que toutes applications ML doivent respectées pour passer en production.
D’autre part, préconiser des évolutions nécessaires sur l’environnement de production afin de pouvoir
accueillir toutes les applications validées.
Principales contributions :
Construction des standards d’évaluation (Grille d’évaluation)
EXPÉRIENCES
Produire le document de cadrage pour l’industrialisation d’algorithmes de Machine-Learning
sur le socle SODA
Définir un process pour le déploiement d’une application ML en production
Industrialisation du poc « DeepName »
Ingénieur BIG DATA/Data
Scientist
Mars 2017-Mai 2017 (2 mois)
GROUPE GRDF
Projet : Cartographie décisionnelle spatiale GNV
Le projet porte sur le développement d’une Infrastructure de Données Spatiales (IDS). Les données du réseau
GRDF sont difficilement accessibles et exploitables en raison de leur confinement actuellement dans des
systèmes propriétaires rendant l’élargissement de leurs usages au sein de GRDF complexe. Pour la production
de cartes géodécisionnelles, tous les utilisateurs concernés (métiers de GRDF et SI) sont pénalisés par la
dissémination des données géospatiales qui rend leurs croisements difficiles, voire impossibles. Le projet avait
pour ambition de :
- Structurer les services et applications spatiales existantes autour d’un socle décisionnel
spatial.
- Décloisonner les données historiquement contenues dans les SI transactionnels pour
favoriser leur usage au sein du pôle SI géospatial, de GRDF et à l’externe.
- Mettre en place une solution technique adaptée pour l’intégration et la mise à disposition
des données externes (Externes GRDF, voire externes au pôle géospatial).
Principales contributions :
Cadrage applicatif et architecture fonctionnelle
Cadrage technique et méthodologie
Recueil des règles métiers de calcul des indicateurs
Maillage cartographique à trois niveaux : niveau casé 200x200, niveau commune et
agglomération de communes.
Conception et implémentations de traitements Spark de calculs des indicateurs selon les
trois niveaux de maillage
Déploiement d’un cluster amazon EMR pour le calcul des indicateurs
Implémentation de traitement pour la collecte des données sous Python et leur dépôt sur
amazon s3
Mise en place et configuration d’un cluster Elastic-Search pour l’indexation de données
issues du calcul des indicateurs
Visualisation cartographique des indicateurs dans ESRI Geoportal et Kibana
Data Scientist
Mai-Juin 2015 (1 mois)
GROUPE ELSAN
Projet : Outil d’intelligence artificielle de classification automatiques des journaux achats.
Le groupe ELSAN dispose d’un ensemble de fichiers de journaux d’achats de différents types de produits (IT,
telecom, maintenance, etc…). Il voudrait pouvoir classifier ces achats en faisant ressortir plusieurs groupes de
classification : Fournisseur, Rubrique, Sous-Rubrique, Domaine, Nature et Périmètre. Jusque-là les
classifications ont été faites manuellement. Mais ils ont aussi testé des méthodes automatiques de
classification comme par exemple les Randoms Forests (qui ont été d’une très faible performance). ELSAN a
donc souhaité être accompagné afin d’élaborer un outils classification automatique. Le projet est censé se
dérouler en deux phases : La première phase : Proposer un POC montrant la faisabilité technique du projet.
La seconde étape : Passer en phase d’industrialisation si le POC est satisfaisant.
Principales contributions :
Atelier de prise de contact et de discussion technique
Traitement et organisation des fichiers de données sources
Constitution des échantillons d’apprentissage et de validation
Choix des algorithmes d’apprentissage et de classification
Ecriture des scripts python
Exécution des scripts et pushing des outputs vers PowerBI
Data visualisations et conception des Dashboard dans PowerBI
Présentation de la démo sur l’efficacité du POC.
Big Data Analyst
Du 15 au 19 Mai 2017 (5jours)
GROUPE OUEST-France
Projet : Formation sur l’utilisation de R sur des grosses volumétries des données stockées dans une
plateforme hadoop :Use-case sur les données « connaissance-client » de Ouest France
Principales contributions :
Introduction à SparkR
Savoir lire et écrire les données à partir de SparkR
Revue des fonctions d’actions et de transformations dans SparkR
Gestion de dataframes
Les étapes du déploiement d’une application sparkR
Machine-learning avec SparkR
Expertise technique
Méthodes statistiques
Algorithmes de machine Learning
Data /Big Data Engineering
Solutions et Architecture distribuées
Langage de programmation : Java, Python, Scala, R, SAS, SPSS,...
Développement d’application Big data / Data Science
Conception et Spécification (SFD, SFTD)
Ecriture de code (java, scala, python, sh, ksh,)
Industrialisation et Maintien en Conditions Opérationnelles(MCO)
Assistance fonctionnelle/Assistance utilisateurs
Préconisation, mise en place de normes de Dev, Revue et
Validation de code.
Méthode de gestion Projet
Cycle en V
Méthode AGILE : SCRUM
R&D
Recherche opérationnelle
FORMATIONS
DIPLÔMES
Master 2 Statistique et Econométrie appliquées au développement : UDA ClermontFerrand (2014)
Domaines d’étude : Statistique, Informatique décisionnelle, Economie, Econométrie,
Finance, Marketing.
LANGUES
Français - Langue maternelle
Anglais - Excellent niveau (Score TOEIC : 935, passé en décembre 2016)