Sylvain - Data Scientist PYTHON

Ref : 201002P001
Email vérifié
Photo de Sylvain, Data Scientist PYTHON
Compétences
Expériences professionnelles
  • Expérience professionnelle

    Sebia – Data scientist, Paris (oct . 2021 – Juin 2023)

    Projet : Automatisation de diagnostic
    Sebia est le premier fournisseur mondial d'équipements et de réactifs pour l'électrophorèse clinique des protéines, avec plus de 1000 employés.

    Client : Laboratoires d'analyses médicales

    Contexte / Objectif : La mission consistait à accompagner la R&D de Sebia dans la mise en place d'algorithmes d'intelligence artificielle pour l'automatisation, l'aide à l'interprétation et la découverte de nouveaux marqueurs de maladies.

    Environnement travail / fonctionnel : Equipe de 3 personnes, dont un autre data scientist, un chef de projet et moi-même.

    Contraintes : une workstation équipée de GPU, collaboration avec des entreprises externes, un gitlab interne, quantité de données dépendant des équipes de labellisation.

    Principales réalisations :
    ● Accélération et stabilisation de l'algorithme de traitement de signal (x100) et amélioration des métriques (accuracy est passé de 90 % à 94 %) pour le diagnostic du myélome multiple.On est passé d'un algorithme qui prenait plus de 10 secondes par courbe pour l'inférence à 0,1 seconde en utilisant les bonnes structures de données et l'optimisation du calcul parallèle. Débogage, transfert et accompagnement pour que le code soit mis en évaluation sous forme d'un RUO. Communication avec un sous-traitant qui gérait le déploiement de l'algorithme et débogage de plusieurs bugs liés à Linux et Python dans un environnement de production. Par exemple, gestion des mises à jour automatiques des librairies Python pour que le code soit stable au cours du temps.
    ● Data engineering et collaboration avec les experts pour la mise en place d'une base de données de référence. Utilisation de pgAdmin(SQL) et mise en place d'un data pipeline documenté pour transformer les données brutes produites par les machines Sebia et les labellisations des experts afin qu'elles puissent être traitées par les modèles machine learning et deep learning. Ce qui a permis l'intégration facile de nouvelles bases de données et que l'autre data scientist puisse faire tourner ses algorithmes avec les miens.
    ● Analyses statistiques (glm, ...) pour la détection de nouveaux marqueurs : Mise en place d'un code qui teste plusieurs configurations de modèles (régression logistique/SVM/random forest), d'hyperparamètres et de combinaisons de features pour détecter les marqueurs les plus pertinents.
    ● R&D sur les images de gels avec les derniers algorithmes de reconnaissance d'images. Mise en place d'algorithmes d'interprétabilité et de détection d'anomalie sur ces images. La performance était au-dessus de 98 %. Première fois qu'un algorithme de deep learning a été testé sur ce genre de données (pas d'articles scientifiques disponibles).

    Environnement technique : python, gitlab, linux, Sql


    Yzr – Data scientist, Paris (Jan . 2021 – Juin 2021)

    Projet : Standardisation API
    Yzr est une start-up spécialisée dans la standardisation de libellés produits et de noms de clients. Elle propose une plateforme no code de normalisation basées sur des API et l’IA.

    Client : Marketplace, grandes distributions

    Contexte / Objectif : En forte croissance Yzr a besoin d’un support technique. J’ai rejoint Yzr dans un premier temps dans le but d’être l’interface entre l’équipe tech et les clients sur les sujets techniques pour que les ressources en interne soient à 100 % sur l’amélioration du produit. J’ai ensuite rejoint la R&D pour coacher les data scientists juniors et améliorer les algorithmes de NLP.

    Environnement travail / fonctionnel : Equipe de 12 personnes dont 4 data scientists.

    Contraintes : arriver à un ARR de 100K avant la prochaine levée de fonds

    Principales réalisations :
    ● Accélération des entrainements et du testing des algorithmes grâce aux GPU, dockerisation des algorithmes entrainés pour la mise en production, proposition d’utiliser un outil no code pour la labellisation manuelle.
    ● Mise en place de la première version de l’algorithme pour traiter le sujet de l’augmentation de données.
    ● Modification de l’algorithme pour qu’il prenne en compte les mots composés.
    ● Mise en place d’un framework de testing pour monitorer l’évolution des performances de l’algorithme en fonction des différentes améliorations apportées. Ce qui a notamment permi de mieux démontrer aux clients l’utilité de l’algorithme de labelling et ce qui a entrainé l’acquisition du premier client de la start-up sur la parti produit : Monoprix.
    ● Encadré un data scientist au début pour le labelling puis 2 data scientists.
    ● Mise en place de dashboarding automatisés avec Google Sheet API
    ● Mise en place d’un pipeline de données avec airflow pour déployer à l’échelle la validation des données chez les clients.


    Environnement technique : python , Bert, Docker, AWS, Elastic Search, celery, fast-API




    De Janvier 2021 à Juin 2021 – YZR
    Data Scientist
    Projet : Standardisation API
    Yzr est une start-up spécialisée dans la normalisation et la standardisation de données. Elle
    propose une plateforme d’automation de l’interopérabilité des données provenant de sources
    hétérogènes.
    Client : Yzr
    Contexte / Objectif : En forte croissance Yzr a besoin d’un soutien technique pour pouvoir
    faire face à la demande. J’ai rejoins Yzr dans le but d’être l’interface entre l’équipe tech et les
    clients permettant ainsi à celle-ci de se concentrer sur le produit. Mon objectif est de faire
    monter en compétence l’équipe technique, gérer un portefeuille de client et d’intégrer de
    nouvelles features à la Roadmap produit.
    Environnement travail / fonctionnel : Equipe de 10 personnes.
    Contraintes : Le Coronavirus qui a mis un stop aux essais cliniques du produit.
    Principales réalisations :
    • PRISE EN MAIN DE PLUSIEURS CLIENTS : CLEAR CHANNEL, L’OREAL, AXA MAROC ET MECHANICUS
    • EXECUTION D’ALGORITHMES TELS QUE LE VARIANT GROUPS ET CAMEMBERT POUR CES CLIENTS.
    • INTEGRATION DE DONNEES DANS ELASTIC SEARCH
    • CONSEILLE L’EQUIPE TECH SUR LES TECHNOLOGIES A UTILISER (PAR EXEMPLE KUBERNETES AVEC
    GPU SUR LE CLOUD AWS, TKINTER, …)
    Environnement technique : python , kubernetes, Camembert, Bert, Variant groups, git, Docker,
    AWS, project management, Elastic Search

    Biogen – Data Analyst, Paris (Fév. 2020 – Avr.2020)
    Projet : Konectom
    Konectom est une application mobile de Biogen. Elle consiste en un medical device permettant de suivre
    l’évolution de maladies cérébrales : SMA, MS, … L’application évite aux patients de faire certains tests chez
    le médecin dans le cadre de leur suivi.
    Client : Equipe scientifique
    Contexte / Objectif : Le projet s’inscrit dans l’intégration d’un produit d’une start-up (Ad Scientiam) dans
    les produits de Biogen permettant de combiner l’innovation avec la force de frappe de Biogen au niveau des
    Clinical trials. L’équipe Data est chargée d’analyser les données d’utilisation de l’application. L’objectif est
    la mise de place de features optimaux permettant le suivi de la progression de la maladie chez le patient.
    Premier Data Scientist / Data Analyst recruté au sein de l’équipe Data.
    Environnement travail / fonctionnel : Equipe de 10 personnes en Agile Scrum.
    Contraintes : Le Coronavirus qui a mis un stop aux essais cliniques du produit. Aucune infrastructure
    d’analyse de données au début de la mission.
    Principales réalisations :
     Suivi d’une entreprise tierce pour la mise en place du back-end de la plateforme de Data Science :
    - Analyse des besoins utilisateurs (Data Scientists)
    - Revue de l’architecture back-end proposée sur le cloud AWS (Amazon Web Services) avec
    l’entreprise tierce - Cycle de vie des données : base de données firebase, document Db,
    lambda functions, notebooks, intégration Git, outils d’analytics
    - Définition des formats de données utilisées sur la plateforme de Data Science et
    récupérées sur les devices
    - Définition des variables utilisées à partir des réunions scientifiques
     Mise en place d’une première librairie data science avec les fonctionnalités CI/CD sur le GitLab de
    l’équipe Data Engineering :
    - Création d’un algorithme état de l’art de step detection sur des séries temporelles de
    données d’accélération et de rotation à partir d’un papier de recherche pour le U-turn
    test et mise en place d’une démo (visualisation des résultats de l’algorithme en temps réel)
    permettant de démontrer l’algorithme à l’équipe
    - Lancement d’une étude de reliability avec R afin de visualiser la qualité des features et de
    leur stabilité temporelle.
    Environnement technique : AWS, Python, Docker, R, mongo Db, Signal processing

    AXA Group Operations – Data engineer, Lausanne (Nov. 2019 – Janv.
    2020)
    Projet : Healthcare bot
    Au sein d’AXA REV (Research Engineering Vision) qui est le pôle
    innovation de l’IT au niveau groupe d’AXA. Les équipes d’AXA REV
    travaillent sur des projets à haut potentiel et placés très haut sur la value
    chain. Elle collabore avec les meilleurs chercheurs du monde (Stanford,
    Ecole Polytechnique Fédérale de Lausanne, …)
    Client : N+2 de l’équipe AXA REV
    Contexte / Objectif : Le projet consiste en la mise en place d’un Chatbot
    médical. L’utilisateur peut recevoir des diagnostics et suggestions de
    médecins en échangeant avec le Chatbot.
    Environnement travail / fonctionnel : Equipe de 10 personnes
    réparties à Lausanne, Paris et Barcelone et un Chef de Projet Agile.
    Contraintes :
     Contrainte de temps : Déploiement du bot en production mijanvier.
     Contraintes légales, de sécurité, de robustesse, d’image de
    marque, ...
    Principales réalisations :
     Aide à la définition et mise en place de l’architecture backend (fonctions Azure, serveur FHIR, transformation de données
    grâce à Typescript, Spark…) du chatbot enregistrant les
    interactions utilisateurs dans une base de données graph sur
    Azure Cosmos DB regroupant les données anonymisées
    d’utilisation du bot.
     Utilisation de Docker pour tester les fonctions en local.
     Travaux effectués sur la robustesse du code avant la mise en
    production et l’intégration de test pour l’intégration continue.
     Code review avec le project manager en s’assurant des best
    practices Python.
    Environnement technique : Cloud Azure, fonctions Azure, Trigger,
    procédures Azure, Databricks sur Azure, l’API REST de Spark, Neo4j,
    Standard FHIR, Typescript, Javascript, VS code, GitHub, Python Cosmos
    DB

    Servier – Computer Vision Data Scientist (Juin 2019 - Sept. 2019)
    Projet : Détection de cancer sur les images histopathologiques
    L’équipe Data Science fait partie du PEX MVD (Pôle d’Expertise
    ‘Modélisation et Valorisation des Données’) intégré à IRIS (Institut de
    Recherches Internationales Servier). Elle travaille sur des
    problématiques de Computer Vision, NLP, Séries temporelles,
    anonymisations appliquées au domaine médical.
    Client : Project Manager Data Science
    Contexte / Objectif : Détection de cancer avec des algorithmes de
    Deep Learning pour identifier les différents types de cancer. Projet de
    classification de séries temporelles.
    Environnement travail / fonctionnel : Equipe de 6 personnes dont 2
    Chefs de Projet.
    Contraintes : Contrainte de temps pour une mise en place des
    algorithmes avant fin septembre. Limitation au niveau des librairies
    Deep Learning : utilisation des librairies et versions qui sont installées
    sur le HPC (>10 GPU, plusieurs Po de stockage). Nombre assez faible
    d’images par cancer.
    Principales réalisations :
     Etat de l’art d’algorithmes de traitement d’images 3D dans le
    but de les appliquer sur des scans IRM du genou pour détecter
    la progression de l’arthrose (3D CNN, …)
     Mise en place d’un algorithme de Computer Vision (ResNet)
    avec du Transfer Learning pour la détermination du type de
    cancer (Prostate, Colon, sein, poumon). Détermination des
    étapes de nettoyage et mise en forme des images
     Extraction de features de séries temporelles de
    recrutement clinique pour faire de la classification (Kmeans) au niveau du site-étude afin d’avoir un prior pour
    entrainer un modèle bayésien
    Environnement technique : HPC, Tensorflow, Selenium, Python

    Samsung – Machine Learning Scientist & Engineer (Oct. 2018 – Juin 2019)
    Projet : ASR (Automatic Speech Recognition)
    L’équipe ASR s’occupe de la transcription de la voix en texte. Les
    performances de l’équipe ASR a une influence directe sur la
    reconnaissance vocale de Bixby (Assistant virtuel) qui est installé sur le
    téléphone des particuliers. L’équipe est divisée en plusieurs entités :
    Language Modeling, ITN, Wake up, G2P.
    Client : Manager France Bixby
    Contexte / Objectif : L’objectif est d’améliorer la reconnaissance
    vocale de Bixby sur les devices Samsung des utilisateurs.
    Environnement travail / fonctionnel : Equipe de 10 personnes en
    Agile Scrum dont un Team Leader.
    Contraintes :
     Encadrement du projet par Samsung Pologne qui a mis en place
    l’architecture permettant de sous-traiter les langues Européennes
     Contraintes de temps avec la sortie du produit en novembre 2018
     Contrainte de performances pour l’acquisition de nouveaux clients
     Contraintes légales pour le crawling de sites web.
    Principales réalisations :
     Crawling de sites web pour entrainer le modèle de langage.
    Utilisation de Rotating Proxies, BeautifulSoup, Headless Chrome,
    Selenium (utilisé par exemple pour des pages à défilement infini
    sur le forum Quora), VPN, Apache Nutch (par exemple pour
    crawler le monde), Wikipédia, Français facile, Opus.... Tests de
    différents agencements de textes de language naturels pour
    améliorer la perplexité
     Mise en place de slot dictionaries
     Automatisation de tâches de correction de corpus
     Phonétisation automatique via LSTM
    Environnement technique : Regular expression, Nutch, Python, CMU
    Sphinx

    SoftatHome – Data Scientist (Mars. 2018 – Oct. 2018)
    Projet : Eyes’on
    Surveiller et optimiser l’utilisation du Wifi des utilisateurs.
    Client : Directeur de l’équipe projet Eyes’on.
    Contexte / Objectif : Softathome est spécialisé dans les logiciels des box
    wifi. Le projet Eyes’on se focalise sur la récupération des données
    d’utilisation des box wifi (RSSI, force du signal, …) pour les stocker dans
    une base de données. Ces données sont ensuite analysées pour apporter
    de la valeur.
    Environnement travail / fonctionnel : Equipe de 10 personnes de Data
    Engineers, Data Scientists et Data Analysts – Agile Scrum - utilisation de
    Jira / Confluence.
    Contraintes : Utilisation du Cloud Orange et de 2 Alienware
    Principales réalisations :
     Analyse de données massives (via Kafka) des clients de
    Softathome (O2, Orange) afin d’aider les opérateurs à prendre des
    décisions plus rapidement
     Mise en place d’un environnement Spark pour réaliser du
    calcul parallèle. Un cluster S3 local a aussi été mis en place.
    Transfert des données de la base de données Cassandra vers
    Amazon S3
     Analyse statistique des données de séries temporelles
    wifi et data vizualisation
     Proposition d’une architecture intégrant Spark avec Kafka
    pour faire de la prédiction quasi en temps-réel.
     Evangélisation de l’équipe au niveau de l’utilité et des
    use-cases de Spark pour le traitement de données massives.
    Environnement technique : Cassandra, Kafka, Spark, Python, Unix, Git,
    Jira, Amazon S3, Orange Cloud


    Dassault Systèmes – Data Scientist (Nov. 2016 – Mars 2018)
    Projet : Systèmes de recommandation
    Etat de l’art des systèmes de recommandation
    Client : Manager Data Science de l’équipe Recherche
    Contexte / Objectif : La 3D Experience plateforme de Dassault Systèmes
    est une marketplace de produits 3D. L’objectif du projet est de réaliser un
    PoC et un état de l’art dans le but futur d’intégrer un système de
    recommandation liant les utilisateurs de produits 3D et les vendeurs de
    produits 3D.
    Environnement travail / fonctionnel : Equipe de Recherche
    composée de 10 personnes spécialisées en Machine Learning.
    Méthodologie projet Cycle en V avec état d’avancement du projet.
    Points de suivi hebdomadaire avec l’équipe Data Science. Mise
    à jour des objectifs annuels et du réalisé avec le management.
    Contraintes : Peu de contraintes étant un projet de recherche.
    Principales réalisations :
     Implémentation d’un algorithme basé sur des graphes combiné
    avec du Tf-IDF, les données étant en faible quantité. Cet
    algorithme avait donné les meilleurs résultats au challenge 2016
    de recommandation de Dassault Systèmes.
     Etat de l’art des systèmes de recommandation
     Modification de l’architecture du Denoising Autoencoder pour qu’il
    puisse prendre en compte les features utilisateurs et les features
    items.
     Implémentation d’un système d’interprétation permettant
    d’expliquer les recommandations du Denoising Autoencoder (LIME
    algorithm)
     Conception d’un Dashboard Flask (à destination des
    commerciaux équipe marketing): mise en place en place d’un
    serveur interne pour valoriser les résultats des systèmes de
    recommandations. Intégration des visualisations D3.js au
    dashboard et présentation au ComEx et aux commerciaux.
     Transfert de la technologie de Denoising Autoencoder vers Spark
    pour intégration
    Environnement technique :
    Python, Réseaux neuronaux, Machine Learning, Caffe, Theano,
    Cuda, UNIX, Flask, D3.js, Modèles bayésiens, Spark, multiprocessing,
    Camtasia, machines virtuelles, MongoDB. Git, Docker.

    Dassault Systèmes – Data Scientist (Mai. 2016 – Oct. 2018)
    Projet : Text classification
    Classification de queries des utilisateurs sur la knowledge base
    Contexte / Objectif : Le data scientist devait analyser le parcours
    client sur la knowledge base afin de faire ressortir des patterns.
    L'objectif étant de spécifier des clusters et thresholds qui seraient
    intégrés aux outils du support client afin de lancer une action mieux
    ciblée.
    Environnement travail / fonctionnel : Equipe Knowledge
    Management de 5 personnes qui a la responsabilité de l’amélioration
    continue de l’expérience utilisateur de la Knowledge base de Dassault
    Systèmes.
    Contraintes : Rédiger un rapport de stage et réaliser un PoC qui
    permettrait d’améliorer l’expérience utilisateur.
    Principales réalisations :
     Analyse des logs de recherche des clients de Dassault sur la
    knowledge base dans le but de faire du clustering (objectif :
    Détecter les différents sujets qui intéressent les utilisateurs) et
    détecter les anomalies pour mettre en place un système de
    feedback automatisé au support client.
     Mise en place d’algorithmes de clustering (K-means,
    algorithmes basés sur la théorie de graphes, …) sur des features
    extraits grâce aux méthodes de NLP (tf-idf, word embeddings,
    ngrams, …) afin de classifier les requêtes utilisateurs.
     Aide à la mise en place d’une démo pour la présenter au ComEx.
     Collaborer avec un membre de l’équipe recherche pour la
    classification d’images de la Knowledge base pour améliorer le
    moteur de recherche (CNN classique).
    Environnement technique : Python, NLTK, R, Theano

Études et formations
  • Formation

    • ENSAE : Ingénieur en statistique (2016)
    • Ecole Normal Supérieur (ENS) : Master MVA (Mathématiques, Vision, Apprentissage)
    Prépa MP / MPSI – Lycée Henry IV

    Langues :
    • Anglais : Bilingue

    COMPETENCES
    • Data Science, Data Engineering (Mise en production des algorithmes d’intelligence artificielle)
    • Conception de Dashboard
    • Machine Learning & Deep Learning
    • Computer Vision, NLP
    • Etat de l’art sur l’intelligence artificielle
    • Formation sur la Data Science
    • Langages : PYTHON (expert), R, Matlab, C++, JAVA, Node.js
    • Frameworks : Tensorflow, Cmusphinx, Caffe, Theano, Keras, SPARK, KAFKA, Cuda, Nutch, Scikitlearn, Camembert
    • Bases de données : SQL, Mongodb, Cassandra, HADOOP, Firebase, Cosmos DB, Neo4j,
    POSTGRESQL
    • Systèmes : Windows, Unix, Linux
    • Data vizualisation : D3.js
    • Méthodologie projet : Agile SCRUM
    • Outils : Confluence, Slack, JIRA, GIT HUB
    • Développement Web : REST
    • Cloud Computing : MS AZURE, MS AZURE DATABRICKS, MS Cloud AZURE , AWS
    • Virtualisation : DOCKER, Kubernetes, SIGNAL

D'autres freelances
Data Scientist PYTHON

Ces profils pourraient vous intéresser !
CV Data Analyst Microsoft Power BI
Elie

Data Analyst Microsoft Power BI

  • VILLEURBANNE
Microsoft Power BI PYTHON EXCEL JIRA SCRUM DATA SQL MICROSOFT POWER AUTOMATE
CV Senior Data Engineer and Scientist NLP
Stefano

Senior Data Engineer and Scientist NLP

  • ANTIBES
BIG DATA SQL APACHE SPARK DATA PYTHON SCALA JAVA
Disponible
CV Ingénieur IT Data/IA
Maël

Ingénieur IT Data/IA

  • BORDEAUX
SQL PYTHON DATA EXCEL Google Cloud Platform JAVASCRIPT
Disponible
CV Ingénieur en Data et IA
Joel

Ingénieur en Data et IA

  • CHAMPS-SUR-MARNE
PYTHON Microsoft Power BI SQL EXCEL AZURE PYSPARK JAVA C# PHP .NET
Disponible
CV Etudiant
Colince

Etudiant

  • CALAIS
JAVA PYTHON C R REACT.JS DATA WEBDEV INFORMATICA SQL MONGODB
Disponible
CV Data Scientist
Yanis

Data Scientist

  • PARIS
PYTHON SQL SCRUM DATA Microsoft Power BI AGILE DOCKER NODE.JS C# JIRA
Disponible
CV Machine learning engineer
Antoine

Machine learning engineer

  • PALAISEAU
PYTHON DATA C++
Disponible
CV Développeur Full Stack et Data Scientist
Jugurtha

Développeur Full Stack et Data Scientist

  • BOULOGNE-BILLANCOURT
PYTHON SQL REACT.JS C++ JAVASCRIPT SWIFT
Disponible
CV Data Scientist Data science
Adam

Data Scientist Data science

  • MARSEILLE
Data science PYTHON PANDAS DATAVIZ BIG DATA SQL LINUX ELK C++ Cloud AWS
CV Data Scientist Deep Learning
Steve

Data Scientist Deep Learning

  • LE CHESNAY
Data science PYTHON SQL Microsoft Power BI PANDAS DATA MICROSOFT POWER QUERY UNIX Google Cloud Platform R
Disponible