Clément - Data Scientist PYTHON

Ref : 190412A001

Compétences

PYTHON

DATAVIZ

Jupyter

MYSQL

Dataiku

MATLAB

Expériences professionnelles

EXPÉRIENCE PROFESSIONNELLE

FREELANCE
Avril 2019 à Septembre 2020
Contexte
Création d’un Dashboard en Python afin de visualiser en temps réel les données provenant d’objets intelligents à travers une
Websocket. Les données au format JSON sont issues d’un moteur de reconnaissance d’images d’une part et de reconnaissance
faciale d’autre part.
Responsabilités
- Connexion à la Websocket avec la librairie websocket-client
- Mise en forme des données
- Création du Dashboard en temps réel avec les librairies Dash et Plotly
Environnement technique et fonctionnel
- Langages : Python
- Outils : Dash, Websocket-client, Plotly

FREELANCE
Janvier 2019 à Avril 2019
Contexte
Création d'algorithmes de Deep Learning en Python afin de différencier le porteur d’un bracelet connecté émettant un signal de
référence d’autres utilisateurs ou encore de prédire des valeurs de pression artérielle à partir de ces signaux PPG. Ces
algorithmes utilisent différents réseaux de neurones (RNN, CNN, …) pour l’apprentissage des caractéristiques du signal.
Responsabilités
- Mise en forme des données (upload, données de batch, preprocessing, …) avec un script Python
- Apprentissage des réseaux de neurones avec Tensorflow
- Rapport de performances (accuracy, ROC, matrice de confusion)
Environnement technique et fonctionnel
- Langages : Python, Tensorflow

FREELANCE
Janvier 2018 à Janvier 2019
Contexte
Création d'un algorithme de topic modeling en Python afin d'identifier les différents sujets contenus dans les requêtes d'un
chatbot sauvegardées dans une base MongoDB.
Responsabilités
- Mise en forme des données (normalisation, lemmatization, stopwords, création du corpus et du dictionnaire…) avec un script
Python
- Connexion et extraction des données de la base MongoDB
- Topic Modeling Python
Environnement technique et fonctionnel
- Langages : Python (Scikit-learn, Gensim)
- Outils : RobotMongo

VOYAGES-SNCF
Consultant Big Data
Juillet 2017 à Décembre 2017
Contexte
Le but est de construire une interface web en Node.JS permettant d’effectuer la récupération des données, leur mise en forme
par des scripts Python ainsi que le stockage dans une base MongoDB. Une fois dans la base, des requêtes sont effectuées pour
proposer une visualisation des données avec l’aide de D3.js.
Responsabilités
- Mise en forme des données avec des scripts Python
- Stockage des données dans une base MongoDB
- Construction de l’interface web avec NodeJS
Environnement technique et fonctionnel
- Langages : Python, NodeJS
- Outils : RobotMongo, D3.js

VOYAGES-SNCF
Consultant Big Data
Juillet 2017 à Décembre 2017
Contexte
Le but est de définir un workflow capable d’alimenter de manière automatique les bases de données de facturation depuis
la reconnaissance des factures des partenaires SNCF jusqu’à la mise en forme des données en passant par l’extraction des
informations souhaitées à l’aide de l’OCR Yooz.
Responsabilités
- Extraction des informations avec l’OCR Yooz
- Mise en forme et nettoyage des données avec SQL Developer
- Alimentation des bases de données au format XML
Environnement technique et fonctionnel
- Langages : SQL, Python
- Outils : SQL Developer, OCR Yooz, XML

BNP PARIBAS CARDIF
Consultant R&D
Janvier 2017 à Juin 2017
Contexte
Le but est de créer une application de réalité virtuelle sous Unity afin de tester les fonctionnalités du casque de réalité virtuelle
Hololens (Gesture, Gaze, Spatial Mapping, Spatial Sound).
Responsabilités
- Création d’une application 3D sous Unity
- Import des différents hologrammes à l’aide de TF3DM
- Implémentation des fonctionnalités du Hololens en C# avec Visual Studio
Environnement technique et fonctionnel
- Langages : C#
- Outils : Unity, Visual Studio
BNP PARIBAS CARDIF
Consultant R&D
Janvier 2017 à Juin 2017
Contexte
Le but est de tester les différentes APIs Google sur un bot conversationnel au travers de l’interface de dialogue Slack.
L’utilisateur effectue ses requêtes au bot, lequel utilise les APIs afin de récolter les différentes informations puis formule une
réponse à l’utilisateur dans un langage naturel afin que la conversation soit le plus fluide possible.
Responsabilités
- Création du bot avec Javascript et lien avec l’interface Slack
- Implémentation de « l’intelligence » du bot avec les différentes APIs : Google Natural Language, Google Translate,
Google Speech, Google Vision, Google Maps, Google News et Google Custom Search.
- Ajout du machine learning avec API.ai
- Déploiement du bot depuis la plateforme Heroku
Environnement technique et fonctionnel
- Langages : Javascript
- Outils : Slack, API.ai, APIs Google, Heroku
BNP PARIBAS CARDIF
Consultant R&D
Janvier 2017 à Juin 2017
Contexte
BNP Paribas Cardif souhaite élargir son expertise sur les nouvelles technologies et réalise pour cela une veille technologique sur
des outils allant de la reconnaissance de caractères à la réalité virtuelle en passant par l’implémentation de chatbots. L’objectif est
de créer une webapp permettant d’extraire les différentes informations contenues dans une carte d’identité.
Responsabilités
- Prise en main de Tensorflow, de son modèle d’apprentissage Inception et de Tensorflow Serving
- Mise en place d’un environnement sur Google Cloud Platform
- Création avec PHP de la webapp permettant l’upload de la carte d’identité et l’extraction des informations avec l’OCR Tesseract
Environnement technique et fonctionnel
- Langages : PHP
- Outils : Tensorflow, GCP, Tesseract

DSI R&D DEVOTEAM
Consultant Big Data
Novembre 2016 à Janvier 2017
Contexte
L’objectif de ce projet est de mettre en place une architecture Lambda afin de pouvoir traiter en temps réel les données de la
ville intelligente (choix des technologies, mise en place du cluster…) afin de proposer un modèle allant de l’ingestion des données
jusqu’à l’interface de visualisation.
Responsabilités
- Choix des technologies Hadoop à mettre en œuvre sur le cluster (Kafka, Flume, Spark, Hbase, D3.js)
- Mise en place du cluster Hadoop
Environnement technique et fonctionnel
- Outils : Kafka, Flume, Spark
- Bases de données : Hbase

DSI R&D SERVIER
Data Scientist
Septembre 2016
Contexte
Le but est d’évaluer les performances d’un logiciel de traitement des données nommé Saagie, composé de différentes briques
pour l’extraction de données, le machine learning, la data visualisation (Docker, Spark, Impala, Hive, Pig …). Test logiciel réalisé
lors d’une veille technologique.
Responsabilités
- Prise en main des fonctionnalités de Spark, Hive, Impala et Sqoop
- Évaluation des performances
Environnement technique et fonctionnel
- Outils : Spark, Hive, Impala, Pig, Sqoop

DSI R&D SERVIER
Data Scientist
Septembre 2016 à Octobre 2016
Contexte
Le but de ce projet est de réaliser un script en Python permettant le calcul du rythme cardiaque d’un utilisateur à partir de
son électrocardiogramme issu d’un t-shirt connecté.
Responsabilités
- Récupération des données du t-shirt
- Écriture du script Python
Livrables
- Code python et documentation
Environnement technique et fonctionnel
- Langages : Python
- Bases de données : T-shirt connecté

DSI R&D SERVIER
Data Scientist
Juillet 2016 à Septembre 2016
Contexte
Ce projet est un projet de data visualisation permettant aux utilisateurs d’un bracelet connecté d’observer le nombre de pas
réalisés par l’ensemble des utilisateurs au sein de l’entreprise en fonction de différents facteurs (genre, âge, pratique d’une activité
physique ou non).
Responsabilités
- Récupération des données du bracelet
- Récupération des données utilisateur
- Choix des librairies D3.js de visualisation
Livrables
- Code Javascript, CSS, HTML et documentation
- Serveur NGINX
Environnement technique et fonctionnel
- Langages : Javascript (D3.js), CSS, HTML
- Bases de données : Bracelets connectés

DSI R&D SERVIER
Data Scientist
Mai 2016 à Juillet 2016
Contexte
POC destiné à la sélection de variables Open Data permettant de faciliter le choix des pays candidats à recevoir une future étude
clinique. La sélection des indicateurs est réalisée de manière automatique à l’aide d’algorithmes de machine learning.
Responsabilités
- Sélection des sources Open Data
- Nettoyage des données
- Sélection des algorithmes de machine learning adaptés
- Sélection des variables et interprétation des résultats
Livrables
- Liste des indicateurs
- Méthode d’intégration dans l’interface utilisateur
Environnement technique et fonctionnel
- Langages : R, Python
- Bases de données : Open data, BDD internes
- Outils : Dataiku, Azure, Spotfire

DSI R&D SERVIER
Data Scientist
Avril 2016 à Mai 2016
Contexte
Le but est d’extraire via l’API Tweeter les tweets concernant l’actualité de Servier ainsi que celle de ses partenaires et
concurrents. Les tweets doivent ensuite être regroupés sous différents clusters selon le sujet traité.
Responsabilités
- Extraction des tweets à l’aide de l’API Tweeter
- Nettoyage et normalisation des tweets avec le logiciel Dataiku
- Calcul des distances avec le package python FuzzyWuzzy
- Formation des clusters
- Visualisation des clusters
Livrables
- Code python et documentation
Environnement technique et fonctionnel
- Langages : Python
- Bases de données : Réseaux sociaux (Twitter API, Cassandra)
- Outils : Dataiku

CGI
Développeur
Janvier 2016 à Avril 2016
Contexte
Création d’une application Android permettant la reconnaissance de l’index d’un compteur par un smartphone à des fins de
facturation. L’application effectue une reconnaissance de caractères avec l’OCR Tesseract.
Responsabilités
- Création de l’interface utilisateur
- Code Java de l’application
- Choix des algorithmes de traitement d’images
- Utilisation de l’OCR Tesseract
Livrables
- Spécifications techniques et fonctionnelles
- Code Java et documentation
Environnement technique et fonctionnel
- Langages : Java
- Bases de données : MySQL
- Outils : Android Studio, OCR Tesseract, OpenCV

PROJET ACADEMIQUE
Développeur
Janvier 2015 à Mars 2015
Contexte
Le but est de développer un système permettant aux acteurs du domaine biomédical de disposer d’un système qui regroupe des
données diverses sur les maladies qui sont réparties dans différentes sources de données. Ce système doit permettre, à partir
d’une requête unique, de considérer le contenu de quatre sources de données hétérogènes (XML, MySQL, Texte, CouchDB).
Responsabilités
- Création de l’interface utilisateur
- Code Java de l’application
Livrables
- Code Java et documentation
Environnement technique et fonctionnel
- Langages : Java
- Bases de données : MySQL, XML, Texte, CouchDB
- Outils : Lucene, Solr

Études et formations

compétences

Créatif, Polyvalent, Esprit d’équipe, Autodidacte, Fiable, Ouverture d’esprit.

éducation

2013–2016 Ecole d'ingénieur en informatique - Nancy (54) Telecom Nancy
2011–2013 CPGE option Physique et Technologie - Versailles (78) Lycée Jules Ferry
2008–2011 Bac S option Sciences de l’ingénieur - Guyancourt (78) Lycée de Villaroy

réalisations académiques
2016 Implémentation de métaheuristiques (recuit simulé, recherche tabou, algorithme génétique)
pour l'optimisation du positionnement des lettres d'un clavier en Python Académique
2016 Réalisation d'un POC d'augmentation de la diversité dans la recommandation de musiques en
NodeJS, D3.js Académique
2016 Réalisation d'un système d'intégration de données XML, MySQL, CouchDB de type médiateur
autour des maladies en Java

EXPÉRIENCE PROFESSIONNELLE

FREELANCE
Janvier 2019 à Avril 2019
Contexte
Création d'algorithmes de Deep Learning en Python afin de différencier le porteur d’un bracelet connecté émettant un signal de
référence d’autres utilisateurs ou encore de prédire des valeurs de pression artérielle à partir de ces signaux PPG. Ces
algorithmes utilisent différents réseaux de neurones (RNN, CNN, …) pour l’apprentissage des caractéristiques du signal.
Responsabilités
- Mise en forme des données (upload, données de batch, preprocessing, …) avec un script Python
- Apprentissage des réseaux de neurones avec Tensorflow
- Rapport de performances (accuracy, ROC, matrice de confusion)
Environnement technique et fonctionnel
- Langages : Python, Tensorflow

FREELANCE
Janvier 2018 à Janvier 2019
Contexte
Création d'un algorithme de topic modeling en Python afin d'identifier les différents sujets contenus dans les requêtes d'un
chatbot sauvegardées dans une base MongoDB.
Responsabilités
- Mise en forme des données (normalisation, lemmatization, stopwords, création du corpus et du dictionnaire…) avec un script
Python
- Connexion et extraction des données de la base MongoDB
- Topic Modeling Python
Environnement technique et fonctionnel
- Langages : Python (Scikit-learn, Gensim)
- Outils : RobotMongo
VOYAGES-SNCF
Consultant Big Data
Juillet 2017 à Décembre 2017
Contexte
Le but est de construire une interface web en Node.JS permettant d’effectuer la récupération des données, leur mise en forme
par des scripts Python ainsi que le stockage dans une base MongoDB. Une fois dans la base, des requêtes sont effectuées pour
proposer une visualisation des données avec l’aide de D3.js.
Responsabilités
- Mise en forme des données avec des scripts Python
- Stockage des données dans une base MongoDB
- Construction de l’interface web avec NodeJS
Environnement technique et fonctionnel
- Langages : Python, NodeJS
- Outils : RobotMongo, D3.js