Expériences professionnelles
PulseLife Lyon, France
LEAD DATA SCiENTiST, TEAM LEADER ‑ BUiLD MEDiCAL SEARCH ENGiNE FOR HCPS Jan. 2021 ‑ July 2024
• In charge of projects supervision and management of 2 permanent team members (+ 1 intern)
• Build drugs search engine for 3 countries (FR, ES, UK) : build ETL that structures and cleans drugs database, build API to serve drugs database
and answer most frequent questions (posology, therapeutic indications, side effects, interactions, ...)
Business value : HCPs and pharma labs expect a perfect coverage of official drugs database in PulseLife search engine
Achievement : autocomplete suggestions click rate increased by 5 to 10%, search results click rate increased by 10 to 15%
• Build real‑time entities extraction service : build database of medical entities (drug names, diseases, symptoms, ...), tag relevant content (espe‑
cially disease‑related guidelines) in order to reach a maximum precision in search engine, serve medical entities in autocomplete suggestions,
serve medical entities in real‑time entities extraction (invisible to users)
Business value : doctors find official guidelines related to a given pathology,
Achievement : search engine precision reaches ≥ 98%, response time is ≤ 1 second
• Other projects delivered by the team : propose images (decision trees, tables) in search results, propose misspelling correction for user query
(”did you mean” feature)
• Tools :
‑ programming : ETL (Python, dbt, SQL, Airflow), API (Golang, Python + FastAPI), GCP cloud (BigQuery, Cloud Run)
‑ search engine : advanced features of Elasticsearch (full‑text‑queries, percolate queries, collapse, ...)
Janssen Pharmaceutica Remote
FREELANCE DATA SCiENTiST / ENGiNEER (REMOTE) Jun. 2020 ‑ Dec. 2020
• Build data lake (10 people team across EU) : implement ETL to create reliable aggregated data
• Healthcare professionals segmentation based on their digital behaviour : deliver segmentation + targeting recommendation for 10k+ profes‑
sionals
• Monthly reports automation
• Tools : SQL, Python, Bash, AWS (S3, Redshift, Athena)
JULY 24, 2024 DAMiEN ******** · CURRiCULUM ViTAE 1
Gap year
TRAVELiNG, THEN ESCAPiNG PANDEMiC Sep. 2019 ‑ May. 2020
Janvier 2018 - Juillet 2019 | Ogury, Paris (France)
Senior data scientist - Traitement de données et machine learning appliqués au ciblage publicitaire
- Similarité entre applications mobile : prétraitement des descriptions des applis provenant du Play Store (TextRank),
vectorisation des applis avec un modèle pré-entraîné de word embedding (FastText)
Application métier : cold start (jour 1) pour les campagnes d’installation d’applis
Résultat : ~ 1 million d’applis traitées, mise à jour mensuelle du modèle
- Catégorisation des applis mobile (norme IAB) à l’aide de plusieurs sources de données : catégorisation manuelle
(~1800 applis), propagation de labels en utilisant les valeurs de similarités entre applis, topic modelling sur les
descriptions des applis
Application métier : les équipes commerciales peuvent définir des persona marketing pour les marques clients
Résultat : labellisation non supervisée automatisée de ~ 3.5 million d’applis, accuracy 10 points supérieure
aux données tierce partie (40% vs 30%)
- Reconstruction de l’usage quotidien des applis mobiles par méthode supervisée (jeu d’entraînement ~550 Go)
Application métier : ajuster les prix des enchères (Real Time Bidding) pour chaque utilisateur (ranking/scoring basé
sur leur usage des applis)
Résultat : prédiction quotidienne pour 8 pays incluant 1.6 M utilisateurs aux US et 900 k utilisateurs en France,
recall ≥ 90% / precision ≥ 60% pour le top 100 des applis
- Outils
Langages : SQL, Python, Bash, R, Spark/Scala
Dev : Git, Travis, Docker, Jira + Confluence
Bases de données: AWS Redshift
Cloud: AWS (S3, Redshift, Data Pipeline, EC2, Athena, EMR)
ML : FastText, Scikit-Learn, SpaCy, AWS SageMaker
2018 - 2019 | Itescia, Cergy (France)
Formateur (freelance) en bases de données SQL/NoSQL BAC+1/BAC+2 - 3 semaines de cours en 2018, 5
semaines en 2019
- Chaque session dure une semaine complète et inclut cours, TP et un projet en groupe
- Outils : MongoDB, Cassandra, cloud AWS
2017, 6 mois (stage) | DCBrain, Paris Station F (France)
Data scientist - Traitement de données et machine learning appliqués aux réseaux physiques
- Modélisation de séries temporelles (régressions linéaires et non-linéaires, deep learning) et calculs de
rendements de réseaux physiques (gaz, chauffage urbain...), proposition d’améliorations du système de production
- Outils : Python, Scikit-Learn, Keras, Dataiku, ElasticSearch & Kibana (visualisation), cloud AWS
2010 - 2016 | CGG (oil & gas), Massy (France) & Assen (Pays-Bas)
Ingénieur traitement du signal (3 ans opérationnel / 3 ans en R&D) - Traitement du signal & images appliqué à la
géophysique
- Mise en oeuvre de méthodes avancées de traitement du signal pour améliorer les techniques d’imagerie du
sous-sol : modélisation physique du problème, conception et prototypage d’algorithmes, validation de la
méthode sur données sismiques
- Codes de calcul développés : déconvolution spatio-temporelle de signaux source, méthode d’interpolation 2D et 3D
de données irrégulièrement échantillonnées, déconvolution d’un signal source mobile avec prise en compte de
l’effet Doppler
- Traitement et visualisation de données massives (quelques To)
- Contribution à des projets innovants : définition de campagnes d’acquisition de données, preuve de concept (POC)
de nouvelles méthodes de traitement, proposition de brevets, collaboration avec des équipes inter-disciplinaires
- Mission de 9 mois chez un client (Shell, Assen, Pays-Bas) pour projet confidentiel, sous contrainte de temps et
d’utilisation machine : propositions d'amélioration de la séquence de traitement, présentation hebdomadaire des
méthodes employées et résultats obtenus
- Outils : C++, Fortran, Python, Unix & Shell, Perforce, logiciel propriétaire
2008 - 2010 | Egis Structures (BTP / construction), Guyancourt (France) - Département géotechnique
Ingénieur d’études
2008, 6 mois (stage) | University of Waterloo (Ontario, Canada) - Department of civil engineering
Assistant chercheur