• Build data lake (10 people team across EU) : implement ETL to create reliable aggregated data
• Healthcare professionals segmentation based on their digital behaviour : deliver segmentation + targeting recommendation for 10k+ profes‑
sionals
• Monthly reports automation
Traitement de données et machine learning appliqués au ciblage publicitaire
- Similarité entre applications mobile : prétraitement des descriptions des applis provenant du Play Store (TextRank),
vectorisation des applis avec un modèle pré-entraîné de word embedding (FastText)
Application métier : cold start (jour 1) pour les campagnes d’installation d’applis
Résultat : ~ 1 million d’applis traitées, mise à jour mensuelle du modèle
- Catégorisation des applis mobile (norme IAB) à l’aide de plusieurs sources de données : catégorisation manuelle
(~1800 applis), propagation de labels en utilisant les valeurs de similarités entre applis, topic modelling sur les
descriptions des applis
Application métier : les équipes commerciales peuvent définir des persona marketing pour les marques clients
Résultat : labellisation non supervisée automatisée de ~ 3.5 million d’applis, accuracy 10 points supérieure
aux données tierce partie (40% vs 30%)
- Reconstruction de l’usage quotidien des applis mobiles par méthode supervisée (jeu d’entraînement ~550 Go)
Application métier : ajuster les prix des enchères (Real Time Bidding) pour chaque utilisateur (ranking/scoring basé
sur leur usage des applis)
Résultat : prédiction quotidienne pour 8 pays incluant 1.6 M utilisateurs aux US et 900 k utilisateurs en France,
recall ≥ 90% / precision ≥ 60% pour le top 100 des applis
- Chaque session dure une semaine complète et inclut cours, TP et un projet en groupe
- Outils : MongoDB, Cassandra, cloud AWS
Traitement de données et machine learning appliqués aux réseaux physiques
- Modélisation de séries temporelles (régressions linéaires et non-linéaires, deep learning) et calculs de
rendements de réseaux physiques (gaz, chauffage urbain...), proposition d’améliorations du système de production
Traitement du signal & images appliqué à la
géophysique
- Mise en oeuvre de méthodes avancées de traitement du signal pour améliorer les techniques d’imagerie du
sous-sol : modélisation physique du problème, conception et prototypage d’algorithmes, validation de la
méthode sur données sismiques
- Codes de calcul développés : déconvolution spatio-temporelle de signaux source, méthode d’interpolation 2D et 3D
de données irrégulièrement échantillonnées, déconvolution d’un signal source mobile avec prise en compte de
l’effet Doppler
- Traitement et visualisation de données massives (quelques To)
- Contribution à des projets innovants : définition de campagnes d’acquisition de données, preuve de concept (POC)
de nouvelles méthodes de traitement, proposition de brevets, collaboration avec des équipes inter-disciplinaires
- Mission de 9 mois chez un client (Shell, Assen, Pays-Bas) pour projet confidentiel, sous contrainte de temps et
d’utilisation machine : propositions d'amélioration de la séquence de traitement, présentation hebdomadaire des
méthodes employées et résultats obtenus
Département géotechnique
Department of civil engineering
BUiLD MEDiCAL SEARCH ENGiNE FOR HCPS Jan. 2021 ‑ July 2024
• In charge of projects supervision and management of 2 permanent team members (+ 1 intern)
• Build drugs search engine for 3 countries (FR, ES, UK) : build ETL that structures and cleans drugs database, build API to serve drugs database
and answer most frequent questions (posology, therapeutic indications, side effects, interactions, ...)
Business value : HCPs and pharma labs expect a perfect coverage of official drugs database in PulseLife search engine
Achievement : autocomplete suggestions click rate increased by 5 to 10%, search results click rate increased by 10 to 15%
• Build real‑time entities extraction service : build database of medical entities (drug names, diseases, symptoms, ...), tag relevant content (espe‑
cially disease‑related guidelines) in order to reach a maximum precision in search engine, serve medical entities in autocomplete suggestions,
serve medical entities in real‑time entities extraction (invisible to users)
Business value : doctors find official guidelines related to a given pathology,
Achievement : search engine precision reaches ≥ 98%, response time is ≤ 1 second
• Other projects delivered by the team : propose images (decision trees, tables) in search results, propose misspelling correction for user query
(”did you mean” feature)
• Tools :
‑ programming : ETL (Python, dbt, SQL, Airflow), API (Golang, Python + FastAPI), GCP cloud (BigQuery, Cloud Run)
‑ search engine : advanced features of Elasticsearch (full‑text‑queries, percolate queries, collapse, ...)
Janssen Pharmaceutica Remote