Moussa - Data Scientist APACHE HADOOP

Ref : 200320K003

75015 PARIS
Data Scientist, Data Analyst, Développeur (40 ans)
Totalement mobile
Freelance

Compétences

APACHE HADOOP

APACHE HBASE

APACHE HIVE

APACHE KAFKA

APACHE SPARK

Dataiku

DEVOPS

ELASTICSEARCH

JAVA

Expériences professionnelles

EXPÉRIENCES

Ingénieur BIG DATA
Depuis Juin 2017
GROUPE EDF, DIRECTION
COMMERCE

Projet : VERONE DATALAKE
VERONE est un entrepôt de données concernant le marché des clients particuliers d’EDF.
Son objet est de mettre à disposition des SI externes des données nécessaires pour réaliser toute étude
statistique, analyse ou extraction de données concernant les clients particuliers.
Ma mission s’inscrit dans le cadre du projet E.quilibre 2016-Suivi de la Consommation Réelle en Energie
(SCORE), un projet mis en place à la suite du déploiement à l’échelle nationale des compteurs LINKY et GAZPAR
Objectif de la mission : Mettre en place un nouveau flux de publication de données entre VERONE et EDELIA
(Filiale d’EDF).
Objectif métier : Permettre à chaque client ayant souscrit au service E.quilibre de suivre sur son espace client
sa consommation quotidienne en électricité et gaz relevées par le biais des compteurs communicants Linky
et GAZPAR.

Principales contributions :
Activités de développement
 Développer et maintenir des chaînes de traitements pour ingérer les flux de données en
provenance d’ENEDIS et de GRDF.
 Développer et maintenir des applications métiers pour la gestion des consentements des clients
aux relèves quotidiennes ELEC et GAZ dans le cadre du chantier GDPR.
 Développer et maintenir des applications pour la gestion des abonnements auprès de ENEDIS et
de GRDF pour recevoir les index pour les clients qui ont consenti à la relève automatique via les
compteurs LINKY et GAZPAR.
 Développement des plugins Java VALOCONSO pour la valorisation de la consommation périodique
des clients.
 Support technique pour les équipe de recettes internes et transverses.
Briques utilisées: hive, hbase, kafka, Elastic Search, Nifi
Framework : spark, map reduce
Langages : Java, scala, python, sh, ksh.
Outils d’ordonnancement : oozie, crontab.
Activités de support à la production
 Préparation des MEP : Préparer les livrables, rédiger la feuille de route, faire le transfert de Co à
l’équipe de MCO.
 Suivre les actions de mises en production
 Support technique à l’équipe MCO pour résoudre les incidents de production
 Garantir la sécurité et la mise en cohérence des applications livrées en production
Activités de pilotage technique
 Encadrer et aider à la montée en compétence des nouveaux développeurs arrivés.
 Mettre en place des normes de dev
 Revue et validation de code
 Suivre l’application des normes devOps
 Conduire les chantiers techniques : upgrade du cluster hadoop, application des normes gitflow,
chantier de tests automatisés cucumber, etc.

Ingénieur Data Scientist
Août 2018-Septembre 2018 (1 mois)
GROUPE AG2R LA MONDIALE
Projet : Mise en place d’un process d’industrialisation et de mise en production des applications de
Machine Learning.
Dans une plateforme en dehors de Socle Data centré (cluster Hadoop), les équipes datascience ont menées
des expérimentations qu'ils souhaitent mettre en production. La mission a deux volets. D’une part, mettre en
place des critères standards que toutes applications ML doivent respectées pour passer en production.
D’autre part, préconiser des évolutions nécessaires sur l’environnement de production afin de pouvoir
accueillir toutes les applications validées.
Principales contributions :
 Construction des standards d’évaluation (Grille d’évaluation)
EXPÉRIENCES
 Produire le document de cadrage pour l’industrialisation d’algorithmes de Machine-Learning
sur le socle SODA
 Définir un process pour le déploiement d’une application ML en production
 Industrialisation du poc « DeepName »

Ingénieur BIG DATA/Data
Scientist
Mars 2017-Mai 2017 (2 mois)
GROUPE GRDF
Projet : Cartographie décisionnelle spatiale GNV
Le projet porte sur le développement d’une Infrastructure de Données Spatiales (IDS). Les données du réseau
GRDF sont difficilement accessibles et exploitables en raison de leur confinement actuellement dans des
systèmes propriétaires rendant l’élargissement de leurs usages au sein de GRDF complexe. Pour la production
de cartes géodécisionnelles, tous les utilisateurs concernés (métiers de GRDF et SI) sont pénalisés par la
dissémination des données géospatiales qui rend leurs croisements difficiles, voire impossibles. Le projet avait
pour ambition de :
- Structurer les services et applications spatiales existantes autour d’un socle décisionnel
spatial.
- Décloisonner les données historiquement contenues dans les SI transactionnels pour
favoriser leur usage au sein du pôle SI géospatial, de GRDF et à l’externe.
- Mettre en place une solution technique adaptée pour l’intégration et la mise à disposition
des données externes (Externes GRDF, voire externes au pôle géospatial).
Principales contributions :
 Cadrage applicatif et architecture fonctionnelle
 Cadrage technique et méthodologie
 Recueil des règles métiers de calcul des indicateurs
 Maillage cartographique à trois niveaux : niveau casé 200x200, niveau commune et
agglomération de communes.
 Conception et implémentations de traitements Spark de calculs des indicateurs selon les
trois niveaux de maillage
 Déploiement d’un cluster amazon EMR pour le calcul des indicateurs
 Implémentation de traitement pour la collecte des données sous Python et leur dépôt sur
amazon s3
 Mise en place et configuration d’un cluster Elastic-Search pour l’indexation de données
issues du calcul des indicateurs
 Visualisation cartographique des indicateurs dans ESRI Geoportal et Kibana

Data Scientist
Mai-Juin 2015 (1 mois)
GROUPE ELSAN
Projet : Outil d’intelligence artificielle de classification automatiques des journaux achats.
Le groupe ELSAN dispose d’un ensemble de fichiers de journaux d’achats de différents types de produits (IT,
telecom, maintenance, etc…). Il voudrait pouvoir classifier ces achats en faisant ressortir plusieurs groupes de
classification : Fournisseur, Rubrique, Sous-Rubrique, Domaine, Nature et Périmètre. Jusque-là les
classifications ont été faites manuellement. Mais ils ont aussi testé des méthodes automatiques de
classification comme par exemple les Randoms Forests (qui ont été d’une très faible performance). ELSAN a
donc souhaité être accompagné afin d’élaborer un outils classification automatique. Le projet est censé se
dérouler en deux phases : La première phase : Proposer un POC montrant la faisabilité technique du projet.
La seconde étape : Passer en phase d’industrialisation si le POC est satisfaisant.
Principales contributions :
 Atelier de prise de contact et de discussion technique
 Traitement et organisation des fichiers de données sources
 Constitution des échantillons d’apprentissage et de validation
 Choix des algorithmes d’apprentissage et de classification
 Ecriture des scripts python
 Exécution des scripts et pushing des outputs vers PowerBI
 Data visualisations et conception des Dashboard dans PowerBI
 Présentation de la démo sur l’efficacité du POC.

Big Data Analyst
Du 15 au 19 Mai 2017 (5jours)
GROUPE OUEST-France
Projet : Formation sur l’utilisation de R sur des grosses volumétries des données stockées dans une
plateforme hadoop :Use-case sur les données « connaissance-client » de Ouest France
Principales contributions :
 Introduction à SparkR
 Savoir lire et écrire les données à partir de SparkR
 Revue des fonctions d’actions et de transformations dans SparkR
 Gestion de dataframes
 Les étapes du déploiement d’une application sparkR
 Machine-learning avec SparkR

Études et formations

Expertise technique
 Méthodes statistiques
 Algorithmes de machine Learning
 Data /Big Data Engineering
 Solutions et Architecture distribuées
 Langage de programmation : Java, Python, Scala, R, SAS, SPSS,...
Développement d’application Big data / Data Science
 Conception et Spécification (SFD, SFTD)
 Ecriture de code (java, scala, python, sh, ksh,)
 Industrialisation et Maintien en Conditions Opérationnelles(MCO)
 Assistance fonctionnelle/Assistance utilisateurs
 Préconisation, mise en place de normes de Dev, Revue et
Validation de code.
Méthode de gestion Projet
 Cycle en V
 Méthode AGILE : SCRUM
R&D
 Recherche opérationnelle

FORMATIONS

DIPLÔMES

Master 2 Statistique et Econométrie appliquées au développement : UDA ClermontFerrand (2014)
Domaines d’étude : Statistique, Informatique décisionnelle, Economie, Econométrie,
Finance, Marketing.

LANGUES

Français - Langue maternelle
Anglais - Excellent niveau (Score TOEIC : 935, passé en décembre 2016)