Objectif de la mission : Migration des flux Spark du cluster Yarn vers Mesos, Analyser corriger les
incidents confiés avec les reprises de données afférentes sur data Lake et préparer des formations sur
les technologies Big Data.et participation à un comité de migration de données du datalake vers GCP
voilà en gros les principales tâches que j'ai effectuées :
• Assurer le suivi des traitements quotidien en Spark/Scala, hebdo des applications en charge
• Analyse de besoin, design, développement, support, maintenance corrective et évolutive.
• Participer à l’évolution et aux améliorations des services déjà en place en concertation avec le
métier représenté par les PO.
• Développer et tester les corrections d'incidents.
• Livrer en production les corrections
• Mettre à jour la documentation(confluence).
• Accompagner et faire monter en compétence les équipiers du pole et formations sur des
technologies Big Data (Spark-Scala/Hadoop/ELK), ACTIVITES :
- Préparation supports de cours/présentations
- Animation des sessions de formation
- Mener des workshops
• Contribution à l'étude et à la planification de la migration d'une datalake vers les plateformes GCP.
• Étude et migration des outils Hadoop vers GCP.
• Analyse et remplacement des outils Hadoop utilisés dans la datalake vers des solutions équivalentes
sur GCP .
• Réalisation de tests pour valider les flux de données et assurer la migration.
Environnement technique :Spark, Scala, Hadoop, Hive, HDFS, Oozie, Hue, kafka , Mesos,Power BI, Gitlab
-Data Platform ; CDP, GCP, SHell Unix, IntelliJ-IDEA.
-Methode : Agile, un scrum master qui aide le Product Owner dans ses responsabilités, ainsi il organise les
cérémonies agiles comme Le Sprint Planning,Les Daily et les Sprints Review
Big Data Engineer
Natixis Corporate & Investment Banking Paris, France
avril 2022 - septembre 2022
Objectif de la mission : Implémentation des améliorations techniques et fonctionnelles sur le code(SparkScala) du projet d'ingestion des données existant (Comet -datafactory-nps) selon besoin du métier, voilà
en gros les principales tâches que j'ai effectuées :
• Ingestion, transformation, et exposition des données sur GCP.
• Développements des jobs pour le stagging des données dans BigQuery.
• Test et déploiement sur les environnements de développement, de validation et de production,
packaging des livraisons.
• Développement et mise en place script (python) Airflow via un projet TerraForm(dfechange-flux).
• Audit et refacto code (Spark-Scala).
• Développement et alimentation d’objets et vues métier en restituant et réconciliant les données
stockées dans BigQuery.
• Déploiement continue des applications (CI/CD).
• Création et maintien d’un lien fort avec le métier pour améliorer la satisfaction client.
• Suivi d’incident des ingestions.
Environnement technique: Spark, Scala, Python, Terraform, Bigquery, Airflow, dataproc,,GIT/Bitbucket.Sbt
-Data Platform : Google Cloud Platform
-Methode : Agile, un scrum master qui aide le Product Owner dans ses responsabilités, ainsi il organise
les cérémonies agiles comme Le Sprint Planning,Les Daily,les Sprint Review et les groomings .
Cloud Big Data Engineer
Renault Digital Paris, France
janvier 2020 - mars 2022
Objectif de la mission : En fin 2020 Renault a décidé de basculer le data Lake de HDP vers le cloud avec un
grand défi de garder la même qualité de service auprès de nos utilisateurs et d’adapter la solution sur
le cloud, voila en gros les principales tâches que j'ai effectuées :
• Migration de 500 sources (300 Raw, 200 gold, Nifi data import, DLL Spark data-ingestion) depuis Datalake
Renault Digital (Cloudera on-premise) vers GCP - Google Cloud Platform.
• Développement de traitements d’ingestion, de normalisation et de consommation des données structurées
et non structurées.
• Automatisation des Processus d’ingestion de données dans BigQuery.
• Accompagner les équipes pour faciliter la migration vers le cloud de leurs services.
• Contribuer à l'implémentation et à la réalisation technique des solutions choisies.
• Développement du projet Terraform qui permet la création du plan d'exécution détaillé pour construire
l'infrastructure dans GCP (Création projet, dataset, bucket, compte service, etc.).
• Audit de projets (Python, Pyspark, etc.).
• Migration des projets de Pyspark vers script SQl (BigQuery) .
• Déploiement continue des applications (CI/CD).
• Mise en place des tableaux de bord Google Data Studio, GRAFANA (BigQuery billing , execution of DAGs,
data sources ingestion, Track and analyse GCP cost per projects, domain, services, ingestions +
consumers, volume of data hosted etc.).
• Migration/transformation des workflows Oozie en dags Airflow sur GCP Cloud Composer.
• Documentation dans Confluence de normes et bonnes pratiques.
• Assurer le support aux utilisateurs BI, Data Analyste et Scientiste à l'utilisation de la plateforme pour
l'ingestion et le traitement des données.
Environnement technique: Spark, Scala, Python, Nifi, Terraform, Pyspark, Bigquery, Airflow, dataproc,
pub/sub ,GIT/Gitlabee,Maven.
-Data Platform : Google Cloud Platform
-Methode : Agile, un scrum master qui aide le Product Owner dans ses responsabilités, ainsi il organise les
cérémonies agiles comme Le Sprint Planning,Les Daily,les Sprint Review et les groomings .
Data Engineer Big Data
Renault Digital Paris, France
mars 2019 - décembre 2019
Objectif de la mission :
Mise en place d’un data Lake en promis sur HDP.
• Développement de traitements d’ingestion, de normalisation et de consommation des données structurées
et non structurées.
• Conception et développement des traitements Big Data (Batch/Streaming).
• Réalisation des tests unitaires, de non-régression, d’intégration et de performance - Optimisation
d’architecture des projets.
• Contrôle des flux de chargements journaliers.
• Importation de données clients, contrats, consentements, transactions issues de nombreuses sources
différentes (Oracle, MS SQL, IBM Db2, CSV/XLS, TXT) vers le cluster Hadoop (HDFS + Hive) basé sur
Cloudera CDH, en utilisant Sqoop et Spark JDBC.
• Exportation des données dans différents formats et supports (Avro, ORC, HDFS, ElasticSearch, etc.).
• Développement spécifique pour consolider et calculer des données.
• Audit de projets.
• Optimisation les requêtes SQL complexes.
• Création des batch KSH (scripts bash, fichiers de paramètre) pour l’orchestration des jobs Spark.
• Assurer le support aux utilisateurs BI, Data Analyste et Scientiste à l'utilisation de la plateforme pour
l'ingestion et le traitement des données.
• Traitement de données en temps réel via Apache Kafka ( données envoyées par les robots des usines).
• Accompagnement et support projets migrés de HDP2.5 vers HDP 2.6 .
• Maintenance et suivi d’incident des ingestions.
Environnement technique : Spark, Scala, Python, Nifi, Hadoop, Hive, HDFS, Oozie, Hue, kafka , Zeppelin,
-Data Platform (HDP), Hortonworks, Ambari, SHell Unix, IntelliJ-IDEA.
-Methode : Agile, un scrum master qui aide le Product Owner dans ses responsabilités, ainsi il organise les
cérémonies agiles comme Le Sprint Planning,Les Daily et les Sprints Review.
Lead Tech / Architecte
SOS Informatique Tunisie
janvier 2013 - décembre 2018
Mise en place de solutions sur mesure pour divers clients tel que:
• Mettre en place une solution de gestion de la comptabilité, des finances, de la paie, des ressources
humaines et de gestion commerciale. Une solution générique qui peut être utilisée dans plusieurs domaines
d’application. L’application aujourd’hui est utilisée pour gérer une usine de fabrication du mobilier aussi pour
une usine de fabrication de la céramique.
• Encadrement dans le contexte .NET & base de données
Environnement technique : .NET, PostgreSQL, Git, Jira.
• Mettre en place une solution de reporting sur un datalake en pilote | Spark scala.
Ce projet a permis de mieux comprendre les données en couplant plusieurs sources et générer différents
rapports et graphes qui facilitent la lecture des résultats.
Environnement technique : Spark, Scala, Spotfire Git, Jira.
• Développement de la solution « SAMA » (gestion commerciale, gestion des stocks, gestion du cabinet
médical) les modules les plus impor
Professeur/Formateur, Lycée
Tunisie
septembre 2007 - décembre 2018
Base des données
• Algorithmique & programmation
• Réseaux et administration système
Ingénieur études et développement
HNCDEV Tunisie
janvier 2007 - décembre 2012
Développement de solutions de gestion commerciale :
Les applications permettent de gérer l’ensemble de processus de vente, commençant par le devis ou le bon
de commande jusqu’à la facturation, règlement, banque ….
Environnement technique : VB.NET, Microsoft SQL Server, Git, Mantis
Études et formations
Certification Google Cloud Data (coursera)
2020
Certification Big Data Essentials: HDFS, MapReduce, and Spark RDD (coursera)
2019
Formation BigData
Centre de formation POLYTECHNIQUE, Tunisie, Gabès
2016
• Administration Hadoop (HortonWorks)
• Hadoop développement Java
Formation .NET
Centre de formation POLYTECHNIQUE, Tunisie, Gabès.
2011
• Webservices, Windows Forms
• Framework et fonctionnalités avancées
Maîtrise en Informatique Appliquée à la Gestion
Institut Supérieur de Gestion, Tunisie, Gabès.
2006
Langues
Anglais - C2
Autres compétences
Compétences techniques
• Langages de programmation: Scala, Phyton, Pyspark, Bash/Sh, Groovy.
• Big Data: Spark, Hadoop, HDFS, Hive, Nifi, Sqoop, Elasticsearch, Kibana, Cassandra
• Base de données: Oracle, PostgreSQL, Microsoft SQL Server, Mysql, Access
• Plateformes : Hadoop ,Spark
• Outils : Maven,Sbt, Jenkins, Git
• Méthodes : Design Patterns, Intégration continue, Agile, Scrum, Kanban ,JIRA
• Modélisation : Conception UML et Merise
• Systèmes : Linux, OS X et Windows
Connaissances fonctionnelles
• Analyse des besoins fonctionnels
• Encadrement technique et suivi des développements
• Interface client / équipe / direction de projet
• Suivie des anomalies
• Architecture et Conception
• Réalisation et Tests