Saad - Data Engineer (Big Data)
Ref : 101022B001-
92700 COLOMBES
-
Consultant, Data Analyst (41 ans)
-
Freelance
Expérience professionnelle
Janvier 2023 - Aujourd’hui Data Engineer (Big Data)
ALD AUTOMOTIVE, Rueil Malmaison
Au sein du départment Remarketing de ALD Automotive, j'ai occupé le poste de responsable du projet Data au sein du Data Squad :
- Audit du pipeline existant et proposition de solution d’amélioration, simplification et de réduction du temps d’exécution.
- Documentation du pipeline de chargement de données
- Responsable du bon fonctionnement du pipeline
- Suivi de production
- Etude, documentation et validation de l’architecture des différents besoin
- Assurer le développement :
• Ingestion et historisation des données Brute dans le Datalake
• Transformation des données
• Alimentation du Datawarehouse
• Calcul et alimentation de champs SalesForce
• Calcul de nouveaux KPI et modification du modéle tabulaire SSAS
Environnement : Python, Spark (Pyspark), Databricks, Microsoft azure, Storage account azure, keyVault, Azure Data Factory, SQL Server, SSAS, DAX, Azure Devops (azure Pipeline CI/CD, Azure Boards, Azure Repos), Jira, Confluence
Juin 2020 –
Aujourd’hui Data Engineer (Big Data)
Danone, Ile de France
Au sein de l’équipe (R&I) Research $ Innovation de Danone, Responsable de plusieurs projets Big Data:
1. YWS : est une application permettant de scanner des produits:
- Définition de l’architecture du projet
- Définition du modéle de données
- Mise en place de la traduction via l’API Google
- Réalisation et développement du workflow (Ingestion des données brutes de YWS, Traduction et transformation des données, data cleaning, Historisation, Alimentation du DWH et des différents DTM)
- Suivi et maintenance du projet
- Scheduling et gestion des logs
- Utilisation d’API pour enrichir YWS avec les données de plusieurs pays et homogénisation de données.
- Gestion des données référentiel
2. Data Quality:
- En collaboration avec le métier, definition des standards et des régles de contrôle
- Réalisation et développement du workflow avec spark
- Mise en place d’indicateurs
- Scheduling
3. CICD:
Réalisation d’un projet sample pour CICD et avec Jenkins :
- Utilisation de BEHAVE pour les tests BDD
- Tests unitaire
- Utilisation de SonarCloud pour la qualité de données
- Déploiement en Production
4. Migration des scripts et des données du cluster on-premise vers la nouvelle plateforme Danone basée sur Microsoft azure.
5. Documentation Confluence:
6. Suivi du développement réalisé par des stagiaires
Environnement: script shell, Python, Spark, Hive, Impala, Hue, Snowflake, Databricks, Microsoft azure, Jenkins, Github Action, SonarCloud, Git, Jira, Confluence, Intellij
Mars 2021-Septembre2021 (en cours) : Stagiaire data science traitement de
données streamées│DANONE NUTRICIA RESEARCH Palaiseau Paris
Réaliser une étude bibliographique des algorithmes de clustering de
données streamées,
▪ Recueillir les données et identifier les distances adaptées aux mesures de
similarités avecles experts métier,
▪ I mplémenter les algorithmes de clustering de données streamées sous
python
▪ Appliquer les algorithmes de clustering aux données de consommations
▪ Evaluer la pertinence de ces algorithmes
Python, Spark, GitHub, Shell, Sql, I mpala, Databricks, Latex
Avril 2020 – Septembre2020 : Stagiairedatascientist │ ENGIE GREEN
Montpellier
Visualiser, préparer et analyser desdonnées provenant des capteurs,
▪ Utiliser un algorithme de machine learning pour reconstruire la vitesse du vent en
dehors de la zoned’influence du rotor de l’éolienne,
▪ Tester la fiabilité et la précision de l’algorithme,
▪ Créer un package sous R pour le calcul de la courbe de puissance des
éoliennes selon la norme I ECen v igueur,
▪ Réalisation d’une application avec Rshiny pour la visualisation de la courbe
de puissance et des indicateursdu modèle de machine learning
R, R Shiny, Sql, JavaScript, GitHub, Shell, PostgreSQL
FORMATIONS ET CERTIFICATIONS
2019– 2021 Master Statistique et Sciences des Données
Université Grenoble Alpes
2016 – 2019 Licence Mathématiques informatique Appliquées aux Sciences
Humaines et Sociales │Option Economie et Administrations
Université Montpellier 3
Juin 2021 │ Microsoft Certified Azure Data Fundamentals
COMPÉTENCES
SGBD : MySQL, SQL Server, PostgreSQL
Machine Learning : Scikit learn (Python), Caret (R), NLP (Nltk, Spacy…)
Deep Learning : Tensorflow/Keras
Statistiques et Analyse de données : Python (Numpy, Pandas), R, ACP, ACM, AFC
BIG DATA : Hadoop, Spark, Hiv e, I mpala, Databricks
DATA VISUALIZATION : Tableau software, Power Bi
PROGRAMMATION : Python, R, Java, Php, JavaScript, Git/GitHub, Html, Css
QUALITÉS : Esprit d’équipe, Autonome, Persévérant, Force de proposition
LANGUES
Français : bilingue
Wolof : bilingue
Anglais : B2
ACTIVITÉS ET CENTRES D’INTERET
I ntelligence artificielle
Finance
Basketball
Football
Géopolitique
LOGICIELS
BUREAUTIQUE SYSTEMES
Microsoft Office Microsoft
LaTEX Linux
Open Office