Expérience professionnelle
EXPERIENCES PROFESSIONNELLES
DEVELOPPEUR PYTHON ET DATA SCIENTIST – INP (MARSEILLE, NOVEMBRE 2024 - PRESENT)
1. NanoDSF Dashboard: Conception et déploiement d’une application interactive pour la visualisation et l’analyse des
données PDP (Protein Denaturation Profiles) issues de la technologie NanoDSF.
▪ Modules Python réutilisables : Développement de composants modulaires pour la lecture, la transformation et
l’export des données, intégrant des requêtes SQL sur BigQuery pour la préparation et l’agrégation des données.
▪ Exploration interactive : Conception d’une application Streamlit connectée à BigQuery pour l’interrogation
dynamique et la visualisation des profils de dénaturation protéique.
▪ Interface utilisateur : Développement d’une interface intuitive avec Streamlit, garantissant accessibilité et
maintenance aisée sur GCP.
▪ CI/CD & déploiement : Automatisation du déploiement via Cloud Build et GitHub Actions, avec hébergement et
scalabilité assurés par Cloud Run.
Environnement technique : BigQuery, Cloud run, Vertex AI, Cloud Build, Git, Github, Python, Streamlit, Pandas, Plotly.
Domaine fonctionnel : Traitement de données, Computer Vision.
Produits: NanoDSF Visualiser.
2. PDPs Biomarker: Élaboration et mise en œuvre d’une stratégie de traitement des données visant à corriger l’effet de
batch (batch effect), dans le but d’améliorer la performance des modèles de classification de l’état pathologique des
patients.
▪ Architecture cloud : Mise en place d’une architecture distribuée et scalable sur GCP (BigQuery, Cloud
Storage, Vertex AI) pour la correction des effets de lot et le prétraitement des données.
▪ Sélection automatisée de variables : Développement de workflows automatisés (corrélations, ACP, feature
engineering) orchestrés via Cloud Composer / Airflow.
▪ Modélisation avancée : Implémentation et optimisation de biomarqueurs et de modèles de classification
(Bagging, Boosting, Stacking, Voting) en exploitant Vertex AI.
▪ Évaluation rigoureuse : Optimisation et suivi des performances à l’aide de métriques telles que l’Accuracy,
la Précision, le F1-score et l’AUC.
▪ MLOps : Mise en place d’un pipeline d’entraînement reproductible et automatisé avec MLflow (Continuous
Training) pour tracer les expériences, comparer les modèles et orchestrer leur déploiement sur GCP.
▪ Application de visualisation : Développement d’un tableau de bord interactif avec Streamlit, centralisant
les résultats, visualisations et métadonnées, déployé sur Cloud Run.
Environnement technique : Git, Github, Python, Vertex IA, Bigquery, Cloud Run, Cloud Composer, Streamlit, Pandas,
Sklearn, Mlflow, .
Domaine fonctionnel : Traitement de données, Machine Learning, GCP.
Produits: PDPs Biomarker.
DATA SCIENTIST – DEVELOPPEUR PYTHON– ODACEL (PARIS, JANVIER 2024 – AOUT 2024)
Atseeone: Développement d’un module de suivi de l’état de chargement des véhicules de transport de marchandises,
basé sur l’exploitation de données géospatiales.
▪ Développement d'un pipeline de traitement des données GPS (vitesse, latitude, longitude, altitude, variation
d’angles) et extraction de features temporelles (accélération).
▪ Implémentation d’un Dashboard de visualisation des trajets avec Flask et Folium.
▪ Correction des anomalies GPS et alignement temporel pour garantir la cohérence des données.
▪ Orchestration des tâches avec Airflow pour garantir l’automatisation des flux de données pour chaque
véhicule ajouté.
▪ Sauvegarder l’emprunte unique de chaque annonce dans une base PGsql.
▪ Entraînement des modèles de deep learning (LSTM, CNN) et ensemblistes (bagging, boosting, stacking,
voting) pour classifier l'état des véhicules.
▪ Optimisation des hyperparamètres via validation croisée adaptée aux séries temporelles (TimeSeriesSplit).
Conception d’une API avec FastApi consommant le modèle de classification le plus adéquat, permettant la
prédiction en temps réel de l’état des camions (chargé ou vide), afin d’optimiser la logistique et le suivi des
flottes.
Environnement technique : Git, Gitlab, Pgsql, Docker, Python, FastApi, Pandas, Sklearn, Folium, Airflow, Swagger, keras.
Domaine fonctionnel : Logistique, Traitement de données et Machine learning.
Produits: Atseeone
DATA SCIENTIST – DEVELOPPEUR PYTHON– MAKE-IT-DIGITAL (TUNIS, MARS 2023 – DECEMBRE 2023) :
TISEN : Conception d’un moteur de détection de similarité d’images appliqué aux annonces immobilières. L’approche
repose sur l’extraction d’indicateurs statistiques à partir de l’ensemble des visuels associés à chaque annonce
(distribution des intensités de pixels, histogrammes, etc.), dans le but de détecter automatiquement les doublons ou
les annonces visuellement similaires.
1. Conception d’une API REST avec Flask pour analyser des images distantes d’une annonce immobilière via leurs
URLs.
▪ Extraction automatique des histogrammes de couleur (canaux R, G, B) avec normalisation.
▪ Mise en œuvre de règles de filtrage pour exclure les images bruitées ou saturées.
▪ Automatisation des traitements avec des DAGs Airflow.
▪ Sauvegarder les empruntes uniques des annonces dans une base PGsql.
▪ Parallélisation du traitement d’images avec ThreadPoolExecutor pour améliorer la performance.
▪ Packaging des codes avec Docker.
▪ Réalisation des Tests fonctionnels avec Postman.
2. Conception d’une Api de comparaison des annonces en ce basant sur les données de la première API.
▪ Implémentation d’une règle de décision basée sur des tests statistiques (paramétriques et nonparamétriques) pour comparer les annonces.
▪ Réalisation des Tests fonctionnels avec Postman.
Environnement technique : Git, Gitlab, Docker, PGsql, Python, Flask, Pandas, Sklearn, PIL, Postman.
Domaine fonctionnel : Traitement d’images et Machine Learning.
Produits: TISEN
DATA SCIENTIST – DATA ENGINEER– RIDCHA DATA (TUNIS, JUILLET 2022 – MARS 2023)
CvTech: Développement de l’application CvTech, un outil de gestion des ressources humaines destiné à l’analyse
intelligente de CV.
▪ Annotation automatisée des sections de CV avec Document AI.
▪ Annotation automatisée des sections de fiche de post avec Document AI (pour extraire les compétences clés
demandées).
▪ Structuration des données dans BigQuery pour analyses croisées.
▪ Entraînement d’un processeur personnalisé pour la vectorisation des éléments de cv avec Bert via Vertex AI.
Environnement technique : GCP, Bigquery, GCS, Cloud Composer, Python, Vertex AI, Document AI, Pandas, Git, Gitlab.
Domaine fonctionnel : Traitement de données.
Produits: CvTec.
DATA SCIENTIST – DATA ENGINEER– RIDCHA DATA (TUNIS, OCTOBRE 2021 – JIULLET 2022)
DataPro: Une solution dédiée aux équipes commerciales et marketing des entreprises souhaite améliorer ses
campagnes marketing et introduire la prise de décision basée sur les données dans son processus de vente en utilisant
les techniques du Machine Learning/Deep Learning.
▪ Ingestion de grandes quantités de données de sources différentes (BigQuery, SQL).
▪ Organisation, modélisation et structuration des données.
▪ Adaptation des modèles selon les besoins (use case).
▪ Identification des use cases réalisables par les techniques de Machine Learning/Deep Learning.
▪ Définition de l’architecture technique et fonctionnelle des solutions.
▪ Préparation des données, développer des modèles de classification, industrialisation sur GCP (Dataflow,
BigQuery, Vertex AI, JupyterLab).
▪ Utilisation des APIs pour le développement et le déploiement efficaces des modèles
Environnement technique : GCP, Bigquery, GCS, Cloud Composer, Python, Vertex AI, Pandas, Sklearn, keras, Git, Gitlab.
Domaine fonctionnel : Traitement de données, Commerce en ligne.
Produits: DataPro.
DOCTORANT-CHERCHEUR– UNIVERSITE DE SFAX (SFAX, JANVIER 2015 – JUILLET 2018) :
Durant ma thèse de doctorat, j'ai travaillé sur deux axes principaux des mathématiques appliquées, avec un focus particulier
sur l’utilisation de modèles statistiques, notamment les modèles de régression généralisée, ainsi que les modèles de mélanges
stables et de Tweedie. Ces travaux ont abouti à plusieurs publications scientifiques et ont trouvé des applications concrètes.
1. Collaboration avec TelcoTec, une société spécialisée dans les télécommunications :
▪ Mise en place d’une stratégie de collecte des données pour l’analyse de l’intensité du signal Wi-Fi en
environnement intérieur.
▪ Préparation des données et développement de modèles de prédiction basés sur des modèles de régression
linéaire généralisée, en tenant compte du nombre et du type d'obstacles présents.
▪ Rédaction et publication d’un article scientifique détaillant les résultats obtenus.
2. Unité de Recherche en Probabilités et Statistiques :
▪ Prétraitement des images médicales dans le cadre de la segmentation d'images.
▪ Développement de modèles de segmentation d'images médicales, dans le but de déterminer la région
d'intérêt (ROI) des tumeurs cérébrales.
Environnement technique : R, Matlab, latex, ggplot2, EBImage, Wilcoxon, ANOVA, GLM, Shiny, tidyverse.
Domaine fonctionnel : Traitement de données et Recherche scientifique.
AUTRES EXPERIENCES EN TANT QUE FORMATEUR
Depuis 2024 (Aix-Marseille) • 2018–2022 (ESPRIT) Expertise Data/IA & Biostatistiques et Enseignement Avancé :
▪ ESPRIT : Machine Learning, statistiques inférentielles, analyse numérique, encadrement de 15+ PFE en IT/Data.
▪ Aix-Marseille : Cours et ateliers en IA appliquée (Master), biostatistiques, programmation scientifique (Python/R), et
analyse de données biomédicales.
PUBLICATIONS
▪ 2025 [En cours] AI-powered plasmatic digital biomarker to detect brain and systemic ca...