Mohamed - Consultant BIG DATA

Ref : 200915B005

91300 MASSY
Consultant, Consultant technique, Chef de projet (34 ans)
Télétravail si le client est à plus de 2h de son domicile
En cours d'immatriculation

Compétences

JAVA

PYTHON

APACHE HADOOP

APACHE HIVE

APACHE SPARK

ELASTICSEARCH

Cloud AWS

Google Cloud Platform

BIG DATA

TALEND

Expériences professionnelles

Expérience professionnelle

FNAC DARTY ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
Mai 2018 a septembre 2020 – 2 ans – Big Data Engineer
Le groupe Fnac Darty a mis en place un cluster Hadoop (MapR) et développé des applications autour de ce
cluster. Son exploitation est poursuivie au travers de projets métiers et de chantiers techniques, dans le cadre
d’un grand projet de synergie.
Projet - Fiabilité remboursements magasins
Fiabiliser et sécuriser les remboursements en magasin et mise en place d’une nouvelle architecture afin
d’offrir aux magasins des temps de réponse plus adéquats lors des remboursements.
• Analyse de l’architecture existante et étude des scénarios de l'architecture cible (description des
scénarios, évaluation, chiffrage, comparaison ...)
• Conception et implémentation de la solution de collecte vers Elasticseach via Spark Streaming
o Traitement distribué sur fichiers plats positionnels et intégration parallélisée
o Paramétrage des composantes Elasticsearch (shards, replica, index, alias, types)
o Gestion de la profondeur d’historique et contrôle de double intégration
o Planification du flux et gestion de la reprise
o Réalisation de la requêtes API Elasticsearch pour l’équipe BackOffice Fnac Care
• Recette et correction d'anomalies, suivi avec les équipes en magasin et gestion des cas marginaux
Technologies : Spark Streaming, Scala, Python, Elasticsearch, Teradata, Hbase, Yarn, MapR (Hadoop, Hdfs)

Projet - Cloud Salesforce Marketplace & B2B
Projet visant à regrouper l’information prospect/vendeur au sein d’un même outil Salesforce, favoriser les
gains de productivité et de diminuer la perte de connaissance commerciale du fait du Turn-over régulier
des équipes MP
Projet de mutualisation des SI Fnac et Darty et données financières SAP. Permettre aux
métiers/commerciaux de passer des commandes, faire des devis et prospecter depuis Salesforce.
• Réunions de cadrage avec les équipes métiers, description des scénarios, évaluation, chiffrage
• Garantir la cohérence du modèle de données et des référentiels
• Collecte des données en provenance des différentes sources du SI vers le Datalake
• Réalisation des flux de traitement de données Talend (+10 jobs)
o Réalisation des flux conformément aux contrats d’interface et aux matrices de flux
o Interfaçage avec le CRM Salesforce en exploitant les API Salesforce et l’API Analytics
o Alimentation des objets métier Salesforce et Analytics (import des datasets Analytics)
• Ordonnancement des flux avec l’équipe d’exploitation
Technologies : Cloud Salesforce, Analytics, MapR (Hadoop, Hdfs), Sqoop, Hive, Hbase, Talend Big Data
Plateform, SAP, Microsoft SQL Server, Landesk, Axway Automator

Projet - Datamart Client Groupe
Alimentation du datalake Hadoop à partir des multiples sources de données du SI via l’élaboration d’un
job générique d’import des données.
• Recueil du besoin et atelier conception avec architecte technique
• Élaboration de la logique d’import de données du job générique
o Gestion des imports via tables techniques
o Gestion et intégration des données personnelles (GDPR)
o Gestion des différents types d’imports : Delta, Full et Full référentiel
o Log des états d’import et gestion des erreurs et gestion des cas de reprises
Technologies : MapR (Hadoop, Hdfs), Hive, Hbase, Sqoop, Teradata, Oracle, IBM, Talend Big Data Plateform

Projet - Marges Unifiées
Calcul unifié des marges pour les produits détenus par FNAC et DARTY, après la fusion FNAC-DARTY
• Réalisation de flux pour le calcul et le déplacement des données
• Croisement des données en provenance de sources multiples SAP, Teradata, Oracle
• Ordonnancement des flux et interdépendance
• Flux automatisés d’imports depuis SGBD externe vers Datalake et Teradata
Technologies : MapR (Hadoop, Hdfs), Hive, Hbase, Sqoop, Teradata, SAP, Oracle, Talend Big Data
Plateform, Axway

Projet - Rémunération nette vendeur
Mise en place d’un système de rémunération des vendeurs en deux temps sur les ventes réalisées. Une
première partie de la rémunération versée le jour de la vente, une seconde partie sur les ventes
considérées comme conformes par les partenaires : Engie, Total DirectEnergie, Canal+, Sowee.
• Réunion de cadrage et animation d’atelier avec les métiers
• Conception de l’architecture global de traitement et d’intégration de données pour la rémunération des
vendeurs
o Conception et mise en œuvre de flux d’ingestion des fichiers partenaires vers le datalake
o Réalisation des scripts SQL Hive (création des bases de données et tables) pour import des
données vers Hive
o Réalisation des scripts SQL Teradata (création des bases de données et tables) pour export
des données vers le Data warehouse Teradata
o Conception et mise en œuvre des jobs de rémunération (croisement de données en magasins
et partenaires et mise en place de la logique de rémunération)
o Conception et réalisation du jobs d’envoie des données de rémunération via MQ Series vers le
système internet de paiement (XML)
o Mise en place de table pour l’équipe Reporting Microstrategy
• Garantir la cohérence du modèle de données et des référentiels et contrôle des évolutions
• Correction d’anomalies (erreur de format, donnée incohérente, erreur de typage..)
• Garantir le support utilisateur et alimentation des tables de reporting pour les équipes BI (Microstrategy)
Technologies : MapR (Hadoop, Hdfs), Talend Big Data Platform, Teradata, Hive, Hbase, MQSeries,
Microstrategy, Axway
Satisfactions : Architecte Technique Direction Data CRM & Service DOSI, Responsable d’application

AGENCE DE SERVICES ET DE PAIEMENT (MINISTERE DES FINANCES) –––––––––––––––––––
Octobre 2017 a avril 2018 – 7 mois – Chef de projet Data
• Pilotage des évolutions des modèles d’alimentation de l’agrégateur et du support aux utilisateurs dans
son usage
• Garantir la cohérence du modèle de données et des référentiels et piloter ses évolutions en
coordination avec différents systèmes participants, prise en charges des demandes de reporting
• Garantir la bonne intégration applicative face aux différents SI
• Expertise du modèle de données et des possibilités offertes par le système de valorisation de données
à la demande du directeur du programme et du directeur des opérations
• Veiller à l’évolution nécessaire des flux d’échanges entre les systèmes remettants et le module de
gestion financière et l’agrégateur
• Gestion et évolution du modèle de données du socle de Synergie à gestion répartie
• En collaboration avec l’autorité de coordination (CGET) et les différentes autorités de gestion, mise en
place de l’organisation, des procédures et des outils de gouvernance des référentiels Synergie
• Participation avec l’autorité de coordination, les différentes autorités de gestion, l’autorité de certification
et la CICC à l’élaboration et leur maintenance des différents rapports règlementaires et de pilotage
nécessaire au programme Synergie et Synergie CTE.
• Garantir la documentation des évolutions et veiller à l’adéquation des demandes
• Garantir le support utilisateur
• Chef d’équipe : trois ressources, MOE (CGI), Analyste Fonctionnel (ASP)
• Formation sur le domaine de l’Agrégateur
• Animation et pilotage des réunions multipartenaires (DSI & Architecte).
Technologies : Exalead Cloud View, Talend (système d’échange), PostgreSQL, Sept systèmes d’informations
Recommandations : Directeur de mission, Directeur de programme

SOPRA STERIA –––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––
Septembre a octobre 2017 – 1 mois – Big Data Engineer
POC - Réalisation d’un système de collecte et d’analyse de Tweets
• Déploiement et configuration de la distribution Hortonworks HDP
• Mise en place d’un système de récupération et d’analyse des tweets en temps réels
• Création de pipelines de récupération des tweets (Flume – Kafka) via Api Twitter
• Création d’un programme Spark streaming dans le but de scorer les tweets en temps réel
• Création de tables Hive pour pouvoir requêter les tweets bruts et scorés
• Création de tableaux de bords pour pouvoir visualiser les tables Hive
Technologies : Hortonworks HDP 2.4 (Hadoop), Zookeeper, Ambari, Hdfs, Hive, Kafka, Flume, Talend, Spark
Streaming (Java), Qlik View, Script Shell

DEOLAN DIGITAL AVIATION ––––––––––––––––––––––––––––––––––––––––––––––––––––––––
Septembre 2014 a septembre 2017 – 3 ans – Data Engineer
Projet : Cloud – Migration des flux et pipelines de traitement de données vers le Cloud
Implémentation et déploiement des pipelines de données dans le Cloud et implémentation des flux
• Analyse de l’architecture existante (+200 jobs) et analyse des besoins
• Création d’un datalake sur S3 à partir de plusieurs sources de données
• Migration et évolution des flux de donnée existant vers le cloud AWS
• Intégration de Docker et Jenkins pour l’intégration continue
• Création de script shell pour l’automatisation de process
• Conception et développement de pipeline de traitement de données via différents canaux (Api Rest,
Soap, Mail, FTP..) et différentes types de données (Csv, Xml, Json, Excel..)
• Création de modèles d’interactions entre différents systèmes de base de données
• Recette, tests d'intégration, correction d'anomalie, rédaction fiches de tests, code review
• Découplage des systèmes, réduction de la diversité des technologies
• Amélioration de la qualité des données (profilage, nettoyage, débogage, croisement)
Technologies : Talend BigData Integration 6.4.1, AWS (EC2, S3), MongoDB, GCP (BigQuery), Java
(Spring), Python, Artifactory, Glassfish, Jenkins, BitBucket, Script Shell, Docker

Alimentation de l’outil des outils DataViz (data visualisation)
• Analyse des besoins existants et des besoins métier
• Modélisation des relations avec les fournisseurs de données : airlines/airports
• Conception et proposition de différentes architectures / scénarios
• Mise en place de la solution en collaboration avec différentes équipes (Paris, Bordeaux, Lyon)
o Mise en place d'un système de réconciliation de données multi-sources
o Conception et implémentation d'une base de données
o Mise en œuvre des flux d'intégration
o Mise en place de tableaux de bord métier
• Accompagner le changement avec les utilisateurs professionnels
Technologies : Tableau Software Server, Klipfolio, AWS (EC2, S3), MongoDB, Google BigQuery
Gestion de projet : Cadre Agile, méthodologies Scrumban : “Todo, doing,done”, Planning Poker, Stand-up
meeting, Sprint (2 semaines)
Solutions de gestion de projet : Jira, Confluence

Projet : Conception de flux de données et modélisation relationnelle
• Développement des applications ETL via Talend et d’intégration de données
• Optimisation des processus existants
• Participation aux ateliers, définition des taches et des objectifs
• Analyse de l’existant et rédaction de spécifications
• Analyse des données de vol, liste des passagers (PNR), des compagnies aériennes et aéroports
• Modélisation des relations des données en base-graph
• Extraction et transformation des données clients et compagnies aériennes
• Tri, intégration et diffusion des données, intégration en base de données
• Rédaction de fiches de tests et validations
• Rédaction de document synthèse
• Recette technique, fiches de tests, tests d’intégration, validation
• Développement et paramétrage d’une application pour le suivi des incidents
Technologies : Talend Studio for Data Integration 6.4.1, API Rest, MySQL, Oracle, Neo4j
Gestion de projet : Cadre Agile, méthodologies Scrumban : “Todo, doing,done”, Planning Poker, Stand-up
meeting, Sprint, (2 semaines)
Solutions de gestion de projet : Jira, Confluence

Études et formations

ë Formations

Master II Expert informatique - INGESUP (PARIS)
Bachelor Architecte informatique SI – INGESUP (PARIS)
Additionnelles :
2017 – Data sciences : Certificate Data Sciences from A to Z - Udemy, Certificate N°UC-GPUKFSO
2017 – ML : Certificate The basics of machine learning - Udemy, Certificate N°UC-DBI224M8
2020 – GCP Data Engineer Cloud – En cours

Compétences techniques et fonctionnelles

ü BigData : Hadoop (MapR, Hortonworks), HDFS, MapReduce, Flume, Kafka, Sqoop, Hive, HBase,
Spark, ElasticSearch, Kibana
ü Cloud : Amazon Web Services (AWS), Google Cloud Platform (GCP), Azure Microsoft (notions)
ü Langage/Scripting : Java, Scala, Python, Bash
ü ETL: Talend Big Data Integration
ü Base de données : MySQL, MSSQL, Oracle, Teradata, MongoDB
ü Outil de reporting : Tableau Software, Qlik, Klipfolio, Exalead (Dassault System)
ü Gestion de projet : Jira, Confluence, Git, Bitbucket, Trello, Slack
ü Méthodologies : Gestion opérationnelle de projets, Méthode Agile (Scrum / Kanban), Cycle en V

Synthèse des compétences
Secteur d’activité
§ Transport aérien
§ Secteur public
§ Distribution - Retail
§ Automobile
Niveaux d’intervention
Assistance à Maîtrise d’ouvrage :
Animation des ateliers de travail avec les métiers
Capacité relationnelle à échanger avec maîtrises d’ouvrages et maîtrise d’œuvre
Capacité à animer et piloter des réunions multipartenaires (DSI & Architecte)
Modélisation des processus métiers et pilotage de recettes fonctionnelles
Rédaction de notes de cadrages et d’expression de besoins (SFD, SFG)
Formation et support utilisateurs
Assistance à la Maîtrise d’œuvre
Suivi de projet
Conception (alimentation ETL, reporting)
Mise en œuvre et Tests

Langues
English : Intermédiaire (B2+)