Melvin - Data Scientist PYTHON
Ref : 201120A003-
18000 BOURGES
-
Data Scientist (29 ans)
-
Totalement mobile
-
Bientôt freelance
EXPERIENCES PROFESSIONNELLES
Août 2020 à Aujourd’hui – T. TECHNOLOGIES
Formateur Data Engineer
■ Accompagnement d’entreprises de toutes tailles dans le cadrage, la mise en oeuvre et le
pilotage de projets Data complexes
■ Formalisation du besoin, définition d’architecture et réalisation d’outils Big Data (ingestion,
nettoyage, DataOps…) à froid ou en temps réel
■ Animation de sessions de formation (2 à 5j) à l’état de l’art du Machine Learning / Big Data /
noSQL / Dataviz
■ Développement d’outils de Traitement du Language Naturel appliqués à la parole et à la
littérature scientifique (en cours de prototypage)
■ Participation et contribution aux évènements Data en France
■ Management commercial et financier, réponse aux appels d’offres et recherche de talents pour
accompagner la croissance de la société
■ Partenariats avec les institutions et acteurs privés de la Data en France
Environnement technique : Hadoop, Spark, Kubernetes, Python, noSQL, pyTorch, Tensorflow
********
Mars 2020 à Juillet 2020 – MAÏF
Date Engineer
Conception et développement PySpark d’un outil de Data Quality sur un nouveau référentiel
Personnes
Définition d’une architecture cible sur cluster de 70 nœuds
■ Formations d’une équipe aux bonnes pratiques Spark et à la programmation fonctionnelle
■ Création de parser de données json entre API évènementielle et Kafka via PySpark
■ Réplication d’un algorithme de dédoublonnage existant sur outil INFORMATICA vers PySpark
■ Développement de modules et User-Defined-Functions pySpark génériques
■ Création de notebooks Jupyter pour transfert de connaissances
■ Industrialisation et optimisation de jobs pySpark
■ Recommandations stratégiques sur outils Big Data et algorithmes Machine Learning
Environnement technique : Hadoop, Python, Spark, Hive
Février 2019 à Mars 2020 – MAÏF
Data Engineer
(MAIF) - Traitement en masse de données stockées sur Hive et PostgreSQL à l'aide de PySpark
■ (MAIF) - Mise en production d’algorithmes de Data Quality en environnement distribué
■ Animation de la formation « Deep Learning via Tensorflow »
■ Animation de conférences en Machine Learning
■ Création et animation de formation à Kubeflow, création de use-cases sur GCP
■ Présentation plateformes de Data Engineering chez prospects (Dataïku, Trifacta, Dataproc)
■ R&D et définition d’algorithmes de Traitement du Language Naturel
■ (MAIF) - Implémentation d’algorithmes de prédiction de score d’attrition sur données
catégorielles
■ Veille technologique, recrutement, formation de nouveaux collaborateurs
Environnement technique : PySpark, Hive, Scikit Learn, Tensorflow, Kubeflow, Dataïku, GCP
Février 2018 à Février 2019 – SOPRA
Data Enginner
Projet POC P8 création d’un référentiel noSQL pour la Caisse Nationale d’Assurance Maladie
■ Traitement en masse de données stockées sur HDFS et PostgreSQL à l'aide d’Apache Spark
■ Développement de composants Kafka (suite Confluent)
■ Création d'API REST de consultation de données stockées dans Hbase sur architecture
microservice
■ Conception et création d'une API de chiffrement de données sensibles en AES 256
■ Optimisation de jobs Spark à l’échelle (Référentiel de 100 millions d’individus et 9 milliards de
paiements) sur cluster de 37 noeuds dont 4 noeuds Spark managés par YARN
■ Chiffrage et conception User Stories
■ Proxy Product Owner : Suivi des indicateurs projets via outils de BI (Tableau, PowerBI)
■ Pilotage stratégique projets transverses (veille marchés, stratégie marketing moyen terme)
Environnement technique : Java 8, Spark, Kafka, Scala, HBase, PostreSQL, Tableau, PowerBI
********
Septembre 2017 à Décembre 2017 – AJC INGENIERIE
Formation JAVA / ANGULAR
■ Etude de l’écosystème Java
■ Développement backend et frontend
■ Analyse de l’état de l’art
Environnement technique : J2E, Spring, JPA, JavaScript, Angular JS, SQL, Subversion
Mai 2016 à Octobre 2016 – Chercheur en Machine Learning
Université de Montréal
■ Mise en oeuvre d’un algorithme Branch & Bound pour l’entrainement d’un séparateur à vaste
marge (SVM)
■ Etude de la robustesse aux outliers des algorithmes de classification supervisée
■ Implémentation Python d’algorithmes issus de publications scientifiques
■ Participation à la « Deep Learning Summer School » organisée par l’université
■ Participation aux activités de la chaire (Conférences, REXs, lectures)
Environnement technique : Python, IBM CPLEX, Scikit Learn, Theano, Tensorflow
Octobre 2014 à Octobre 2017 – REMY MARTIN
Budget Analyst
■ Suivi et valorisation des actifs pour assurer le reporting financier de la division
■ Mise en place d'une méthodologie de calcul des coûts de revient
■ Développement d'une application de prévision de stocks à moyen et long terme
■ Contrôle des données de production
FORMATION
■ 2021 : Formateur Big Data - Stream Processing - Machine Learning - Freelance
■ 2019 : Formateur Deep Learning / Tensorflow - Zenika
■ 2017 : Formation web Java / JEE - AJC Conseil
■ 2014 - 2017 : Formation d’Ingénieur généraliste - ei.CESI (********) – spécialisation en Innovation Technologique et Entrepreneuriat
■ 2016 - Deep Learning Summer School et conférences d’Optimisation en nombres entiers - Polytechnique Montréal (Canadian Science Excellence Research Chair in Data Science, mentor : Andréa LODI)
Anglais courant : 840/990 TOEIC en 2015, travaux de recherche en anglais en 2016, management d’équipes indiennes en 2018, animation de multiples conférences en anglais
Espagnol intermédiaire
COMPÉTENCES
■ Langages de programmation : Python, Java (jdk 1.8), Scala, SQL, R
■ Big Data : (py)Spark, Hadoop (Hortonworks, Cloudera), Kafka (Confluent), Kubeflow, Hive, Impala, Dataïku
■ Machine Learning : Tensorflow, PyTorch, Scikit Learn, Deeplearning4j, MLFlow
■ Systèmes d’exploitation : UNIX (linux), MAC OS, Windows (XP, Vista, 7, 8, 10)
■ Outils de gestion de base de données : MySQL, PostgreSQL, Hbase, Cassandra, MongoDB, Trifacta, Neo4J, DBeaver, Tableau, PowerBI
■ Cloud : GCP, AWS
■ Mathématiques : Statistiques Bayésiennes, Optimisation, Séries temporelles, Algèbre, Processus Stochastiques