EXPERIENCES PROFESSIONNELLES
Orange – Data Engineer
Contexte
En tant que Cloud Data Engineer, ma mission consiste à mener à bien la migration du Data Warehouse
de Teradata vers la solution BigQuery, qui est une plateforme de data warehouse proposée par Google
Cloud Platform.
Mes responsabilités incluent la conception et l'implémentation de l'architecture de données dans
BigQuery, en veillant à ce que les schémas, les tables et les pipelines de données soient correctement
configurés et exécutés. Je suis également chargé de l'extraction, de la transformation et du
chargement (ETL) des données existantes de Teradata vers BigQuery, en veillant à maintenir l'intégrité
des données et à optimiser les performances.
Pendant le processus de migration, je collabore étroitement avec les équipes métier et les analystes de
données pour comprendre les besoins spécifiques en matière de reporting et d'analyse. Je veille à ce
que les requêtes SQL soient optimisées et que les données soient accessibles de manière sécurisée
pour les utilisateurs autorisés.
Missions
o Définition, transcription des schémas et création des tables sur BigQuery.
o Développement des Workflows d'orchestration en utilisant Airflow.
o Création et industrialisation des pipelines ETL pour extraire les données de Teradata, les
transformer selon les besoins spécifiques et les charger dans BigQuery de manière fiable et
optimisée.
o Création des environnements et attribution des habilitations sur GCP.
o Mise en place des référentiels métier et de monitoring sur BigQuery.
o Mise en place des référentiels métier et de monitoring sur BigQuery.
o Support des feature Teams dans l'utilisation des outils GCP, des pipelines, et résoudre les
problèmes ou les questions techniques rencontrés.
o Copie de données vers GCP.
o Amélioration des outils et des processus utilisés dans le cadre de la migration, en identifiant les
opportunités d'automatisation, d'optimisation des performances et de simplification des tâches.
Environnement technique :
● Python, SQL Git.
● Google Cloud Platform (GCP) : BigQuery, Apache Airflow, Firestore, Cloud Storage.
● Confluence, Jira.
• Ividata – Data engineer (Janvier – Aujourd’hui 2022)
Description du contexte :
Migration des entrepôts de données vers GCP (google cloud platform)
Description mission :
• Transfert des fichiers depuis le serveur vers Google Cloud Storage
• Alimentation du data warehouse dans BigQuery
• Transfert des données en batch de cloud storage vers BigQuery
• Création de table, pré-traitement et transformation de donnée avec BigQuery
• Création des routines pour inclure les calculs des KPI métiers dans de nouvelles tables
Outils : Bigquery, Cloud Storage, Dataproc
Amadeus – Data engineer intern (Juin- Novembre 2020)
Projet : Conception et réalisation d’un prototype de détection de fraude chez les utilisateurs.
Contexte : L'objectif de ce projet est de créer un moteur de règles dynamique pour être intégrer à la
plateforme de détection de fraude. Chez Amadeus, l'analyse du comportement des utilisateurs repose sur un
ensemble de paramètres statiques et des règles hard-coded qui rendent très difficiles les évolutions des
produits et l'adoption de nouveaux clients. Le but du projet est d'évaluer des alternatives et de comprendre
comment rendre la plateforme de détection de fraude plus flexible et facilement ajustable de manière userfriendly.
Le projet vise à tirer parti des techniques du moteur de règles pour construire un prototype capable de
modifier les règles statiques ou les paramètres d'apprentissage automatique pendant l'exécution de
l'application de fraude.
• Des réunions hebdomadaires avec 2 tuteurs (Toutes les présentations et les réunions en anglais)
• Collaborer avec les équipes métiers pour cadrer le besoin du projet
• Benchmark des outils open source
• Conception de l’architecture end to end de la solution
• Installation et configuration de Drools avec Spring Boot
• Développement du prototype (application web) capable de modifier les règles statiques et les
paramètres de l’algorithme de machine learning en temps réel.
• Restituer et vulgariser le prototype aux équipes métiers et techniques.
Outils : Java, Drools, Spring, Spark.
Sanad assurance – Data scientist intern (Février-Juin 2019)
Projet : Développement et mis en production des solutions qui permettent l’ingestion et le traitement de gros
volumes de données de différentessources pour détecter les sinistres frauduleux dans l’assurance en utilisant
Python et des algorithmes de machine learning et de deep learning.
Contexte : Sanad assurance et tous les assureurs indemnisent trop de sinistres frauduleux. Cela s'explique par
le fait que, pour la plupart des assureurs, les sinistres ne sont expertisés que sous la forte suspicion de leurs
gestionnaires de sinistres. C'est dans cette perspective que se voit s'inscrire Ce projet de fin d'étude qui avait
pour objectif : développer une méthodologie automatisée permettant de détecter les fraudes en amont du
versement de l'indemnisation lors de la déclaration du sinistre.
• Modélisation et Conception de l’application
• Desréunions hebdomadaires avec le tuteur et le personnel du service du fraude pour la collecte
des données
• Ingestion, analyses et visualisation des grands volumes de données
• Data cleaning et traitement des données avec Pandas.
• Application de l’algorithme Decision Tree du Machine learning pour la détection des sinistres
frauduleux
• Application de l’algorithme CNN du deep learning pour classifier les images automobiles selon
le degré et la position du dommage pour les comparer avec ceux déjà déclarées.
• Implémentation d’un système de lecture d'immatriculation poursavoirsi le même sinistre a été
déclaré plusieurs fois par l'assuré
• Restituer et vulgariser les modèles aux équipes métiers et techniques.
Outils : Python, SQL, Pandas, Scikit-learn, Keras, Tensorflow , Jupyter Notebook, Google Colab.
Poste Maroc – Business intelligence intern (Juillet- septembre 2018)
Projet : Conception et mise en place d’un système décisionnel pour l’analyse de la solution « Active Track »
d’acheminement des véhicules.
Contexte : Poste Maroc dispose d’un service d’acheminement de véhicules « Active Track » qui génèrent de
multiples données variées et volumineuses. Ces données ont besoin d’être traitées, analysées afin de faciliter
les prises de décisions stratégiques et améliorer le service.
• Analyse du besoin et détermination du cahier des charges
• Alimentation des données issues de l’application dans l’ETL Talend
• Création et alimentation des tables du data warehouse avec SQL
• Création des tableaux de bord avec les KPIs convenus avec les métiers sous Power BI
• Suivi des résultats d’analyse sur les tableaux de bord pour l’aide à la décision
Outils : Talend, Power BI, Oracle Database.
Développeur BI - Hôpital Cheikh Zaid (Juillet- septembre 2017)
Projet : Analyse multidimensionnelle et Prédiction du budget de l’hôpital.
• Modélisation de la solution en UML : uses cases, diagramme de classes.
• Partie analytique : Analyse du budget des périodes passées :
▪ Choix des KPIs métier et modélisation décisionnelle
▪ Alimentation des données
▪ Restitution des tableaux de bords
• Partie prédictive :
▪ Prévision du budget pour les années à venir
▪ Implémentation de l’algorithme Decision Tree
Outils : Sql server, Python
PROJETS ACADEMIQUES
• Challenge Kaggle : Mnist Digit
Contexte : Dans le cadre d’un concours Kaggle, l’objectif est d'identifier correctement des chiffres de 0 à 9
présents dans un ensemble de données relatives à des dizaines de milliers d'images manuscrites.
• Implémentation de l’algorithme du réseau de neurones convolutif pour la classification des images
• Suivi de l’évolution des couches des réseaux de neurones artificiels pour l’évaluation des performances
Outils : Python et plateforme big data