Damien - Data Scientist PYTHON
Ref : 200302R002-
69000 LYON
-
Data Scientist (38 ans)
-
Bientôt freelance
Expériences professionnelles
Janvier 2018 - Juillet 2019 | Ogury, Paris (France)
Senior data scientist - Traitement de données et machine learning appliqués au ciblage publicitaire
- Similarité entre applications mobile : prétraitement des descriptions des applis provenant du Play Store (TextRank),
vectorisation des applis avec un modèle pré-entraîné de word embedding (FastText)
Application métier : cold start (jour 1) pour les campagnes d’installation d’applis
Résultat : ~ 1 million d’applis traitées, mise à jour mensuelle du modèle
- Catégorisation des applis mobile (norme IAB) à l’aide de plusieurs sources de données : catégorisation manuelle
(~1800 applis), propagation de labels en utilisant les valeurs de similarités entre applis, topic modelling sur les
descriptions des applis
Application métier : les équipes commerciales peuvent définir des persona marketing pour les marques clients
Résultat : labellisation non supervisée automatisée de ~ 3.5 million d’applis, accuracy 10 points supérieure
aux données tierce partie (40% vs 30%)
- Reconstruction de l’usage quotidien des applis mobiles par méthode supervisée (jeu d’entraînement ~550 Go)
Application métier : ajuster les prix des enchères (Real Time Bidding) pour chaque utilisateur (ranking/scoring basé
sur leur usage des applis)
Résultat : prédiction quotidienne pour 8 pays incluant 1.6 M utilisateurs aux US et 900 k utilisateurs en France,
recall ≥ 90% / precision ≥ 60% pour le top 100 des applis
- Outils
Langages : SQL, Python, Bash, R, Spark/Scala
Dev : Git, Travis, Docker, Jira + Confluence
Bases de données: AWS Redshift
Cloud: AWS (S3, Redshift, Data Pipeline, EC2, Athena, EMR)
ML : FastText, Scikit-Learn, SpaCy, AWS SageMaker
2018 - 2019 | Itescia, Cergy (France)
Formateur (freelance) en bases de données SQL/NoSQL BAC+1/BAC+2 - 3 semaines de cours en 2018, 5
semaines en 2019
- Chaque session dure une semaine complète et inclut cours, TP et un projet en groupe
- Outils : MongoDB, Cassandra, cloud AWS
2017, 6 mois (stage) | DCBrain, Paris Station F (France)
Data scientist - Traitement de données et machine learning appliqués aux réseaux physiques
- Modélisation de séries temporelles (régressions linéaires et non-linéaires, deep learning) et calculs de
rendements de réseaux physiques (gaz, chauffage urbain...), proposition d’améliorations du système de production
- Outils : Python, Scikit-Learn, Keras, Dataiku, ElasticSearch & Kibana (visualisation), cloud AWS
2010 - 2016 | CGG (oil & gas), Massy (France) & Assen (Pays-Bas)
Ingénieur traitement du signal (3 ans opérationnel / 3 ans en R&D) - Traitement du signal & images appliqué à la
géophysique
- Mise en oeuvre de méthodes avancées de traitement du signal pour améliorer les techniques d’imagerie du
sous-sol : modélisation physique du problème, conception et prototypage d’algorithmes, validation de la
méthode sur données sismiques
- Codes de calcul développés : déconvolution spatio-temporelle de signaux source, méthode d’interpolation 2D et 3D
de données irrégulièrement échantillonnées, déconvolution d’un signal source mobile avec prise en compte de
l’effet Doppler
- Traitement et visualisation de données massives (quelques To)
- Contribution à des projets innovants : définition de campagnes d’acquisition de données, preuve de concept (POC)
de nouvelles méthodes de traitement, proposition de brevets, collaboration avec des équipes inter-disciplinaires
- Mission de 9 mois chez un client (Shell, Assen, Pays-Bas) pour projet confidentiel, sous contrainte de temps et
d’utilisation machine : propositions d'amélioration de la séquence de traitement, présentation hebdomadaire des
méthodes employées et résultats obtenus
- Outils : C++, Fortran, Python, Unix & Shell, Perforce, logiciel propriétaire
2008 - 2010 | Egis Structures (BTP / construction), Guyancourt (France) - Département géotechnique
Ingénieur d’études
2008, 6 mois (stage) | University of Waterloo (Ontario, Canada) - Department of civil engineering
Assistant chercheur
Formation
Mastère spécialisé à Télécom ParisTech - Big Data & Machine Learning (2016-2017)
- Data science : probabilités et statistiques, Data Mining, Data visualization, Machine Learning
- Programmation : Python (Numpy, Scipy, Pandas, Scikit-Learn, design objet, tests unitaires), Java
- Bases de données : SQL, MongoDB, Cassandra
- Big Data : introduction aux frameworks de calcul distribué (Map/Reduce) Hadoop & Spark
Ingénieur de l'École Centrale de Lyon (2004-2008)
- Disciplines majeures : mathématiques appliquées, informatique, mécanique
- Double diplôme spécialité génie civil à la Technische Universität Darmstadt (Hesse, Allemagne)
Informations complémentaires
Judo : 10 ans de pratique, ceinture noire 1er dan (2009 -)
Co-encadrant du cycle d’initiation à l’escalade à Fontainebleau (Club Alpin Français, 2018-2019)