Saad - Data Engineer (Big Data)
Ref : 101022B001-
92700 COLOMBES
-
Consultant, Data Analyst (41 ans)
-
Freelance
Expérience professionnelle
Juin 2020 –
Aujourd’hui Data Engineer (Big Data)
Danone, Ile de France
Au sein de l’équipe (R&I) Research $ Innovation de Danone, Responsable de plusieurs projets Big Data:
1. YWS : est une application permettant de scanner des produits:
- Définition de l’architecture du projet
- Définition du modéle de données
- Mise en place de la traduction via l’API Google
- Réalisation et développement du workflow (Ingestion des données brutes de YWS, Traduction et transformation des données, data cleaning, Historisation, Alimentation du DWH et des différents DTM)
- Suivi et maintenance du projet
- Scheduling et gestion des logs
- Utilisation d’API pour enrichir YWS avec les données de plusieurs pays et homogénisation de données.
- Gestion des données référentiel
2. Data Quality:
- En collaboration avec le métier, definition des standards et des régles de contrôle
- Réalisation et développement du workflow avec spark
- Mise en place d’indicateurs
- Scheduling
3. CICD:
Réalisation d’un projet sample pour CICD et avec Jenkins :
- Utilisation de BEHAVE pour les tests BDD
- Tests unitaire
- Utilisation de SonarCloud pour la qualité de données
- Déploiement en Production
4. Migration des scripts et des données du cluster on-premise vers la nouvelle plateforme Danone basée sur Microsoft azure.
5. Documentation Confluence:
6. Suivi du développement réalisé par des stagiaires
Environnement: script shell, Python, Spark, Hive, Impala, Hue, Snowflake, Databricks, Microsoft azure, Jenkins, Github Action, SonarCloud, Git, Jira, Confluence, Intellij
Mars 2021-Septembre2021 (en cours) : Stagiaire data science traitement de
données streamées│DANONE NUTRICIA RESEARCH Palaiseau Paris
Réaliser une étude bibliographique des algorithmes de clustering de
données streamées,
▪ Recueillir les données et identifier les distances adaptées aux mesures de
similarités avecles experts métier,
▪ I mplémenter les algorithmes de clustering de données streamées sous
python
▪ Appliquer les algorithmes de clustering aux données de consommations
▪ Evaluer la pertinence de ces algorithmes
Python, Spark, GitHub, Shell, Sql, I mpala, Databricks, Latex
Avril 2020 – Septembre2020 : Stagiairedatascientist │ ENGIE GREEN
Montpellier
Visualiser, préparer et analyser desdonnées provenant des capteurs,
▪ Utiliser un algorithme de machine learning pour reconstruire la vitesse du vent en
dehors de la zoned’influence du rotor de l’éolienne,
▪ Tester la fiabilité et la précision de l’algorithme,
▪ Créer un package sous R pour le calcul de la courbe de puissance des
éoliennes selon la norme I ECen v igueur,
▪ Réalisation d’une application avec Rshiny pour la visualisation de la courbe
de puissance et des indicateursdu modèle de machine learning
R, R Shiny, Sql, JavaScript, GitHub, Shell, PostgreSQL
FORMATIONS ET CERTIFICATIONS
2019– 2021 Master Statistique et Sciences des Données
Université Grenoble Alpes
2016 – 2019 Licence Mathématiques informatique Appliquées aux Sciences
Humaines et Sociales │Option Economie et Administrations
Université Montpellier 3
Juin 2021 │ Microsoft Certified Azure Data Fundamentals
COMPÉTENCES
SGBD : MySQL, SQL Server, PostgreSQL
Machine Learning : Scikit learn (Python), Caret (R), NLP (Nltk, Spacy…)
Deep Learning : Tensorflow/Keras
Statistiques et Analyse de données : Python (Numpy, Pandas), R, ACP, ACM, AFC
BIG DATA : Hadoop, Spark, Hiv e, I mpala, Databricks
DATA VISUALIZATION : Tableau software, Power Bi
PROGRAMMATION : Python, R, Java, Php, JavaScript, Git/GitHub, Html, Css
QUALITÉS : Esprit d’équipe, Autonome, Persévérant, Force de proposition
LANGUES
Français : bilingue
Wolof : bilingue
Anglais : B2
ACTIVITÉS ET CENTRES D’INTERET
I ntelligence artificielle
Finance
Basketball
Football
Géopolitique
LOGICIELS
BUREAUTIQUE SYSTEMES
Microsoft Office Microsoft
LaTEX Linux
Open Office