ML non supervisé LDA, Allocation de Dirichlet Latente, calcul de la matrice de probabilité de présence de chaque mot
- L supervisé, classification multi class avec la stratégie One Versus Rest (OVR)
- Modèles Logistique avec pénalité de Ridge, SVM, RN multilayer perceptron, Random Forest, Gradient Boosting classifier,
réduction des dimensions avec PCA.
- Création de deux Api de catégorisation, non supervisé et supervisé, Rédaction d’un document de Datascience
Projet Datazone, Segmentation automatique des clients.
septembre 2018 - aujourd'hui
Recherche de la classification/segmentation client optimale, Clustering Kmean++ , Score RFM
- Sélection du meilleur classifieur : Précision, taux de bon classement, matrice de confusion, courbe ROC.
- Hyperparamètres optimaux obtenus par Cross-validation
- Modèle Regression Logistique avec pénalité, Gradient Boosting classifier, Random Forest classifier, SVM Support Vector
Machine ou Séparateur à Marges Maximales, Classifieur à réseau de neurones multi-layer perceptron
- Appli python de classification des clients, Dossier de Datascience
Data scientist/Manager
Primaxia société
juillet 2018 - aujourd'hui
Aide à la transformation numérique autour de la chaîne de valeur du Big Data.
- Chaîne de process de la data, centralisation des data
- Pour la Direction Financière de Primaxia - comprendre le comportement client.
- Mémoire de recherche M2 IREN sur la création de la valeur par donnée dans le big data
Analyse graphique
ACP en R
février 2018 - aujourd'hui
d’une base de données nutritionnelle pour prédire des compositions pertinentes. Correction des données manquantes par la méthode KNN, Cross-validation. Python et R. Interprétation et préconisation de compositions.
- Création d’une librairie python KNN avec distance Euclidienne, Chi2, One Hot Encoding, distance de Canberra, Jaccard, Hamming, Manhattan, Standardisation, vérité de terrain.
- Automatisation du Reporting des statistiques descriptives
- Présention Pwt enregistrée en vidéo
Etude économétrique
Social Network d’inventeurs,
janvier 2018 - aujourd'hui
une base de brevets de l’Ocde, par la Théorie des Graphes. Modèle de Poisson et Binomial négatif pour prévoir les nombres de Claims/revendications, et les Forward Citations. Avec R, Stata et Python. Profiler les inventeurs star et les paramètres de brevet donnant de la valeur aux brevets.
Fonctionnel économie, environnement technique : collecte des données, datamining, statistiques, économétrie
environnement technique : collecte des données, datamining, statistiques, économétrie
Inventaire Statistiques de réseaux
janvier 2018 - aujourd'hui
Création d’une Application R de génération d’une appli de control (en R) des données manquantes, aberrantes, erreur de typologie.
novembre 2017 - aujourd'hui
Etude économétrique des facteurs socio-économiques du chômage dans les régions européennes. Agrégation de 8 bases Eurostat. Modélisation en données de panel, modèles between, within, pooling langage R.
Aménagement Onf : c’est l’application de gestion durable des forêts publiques françaises.
- création du schéma postgres, et d’un framework Angular js,
- appli R de génération automatique des formulaires d’écran + dao +Ctrlr, et html de statistiques descriptives
Inventaire Statistiques de réseaux de placettes
juillet 2017 - aujourd'hui
Inventaire Statistiques de réseaux de placettes selon des algorithmes d’Agroparitech et l’Onf. Développement d’un moteur d’alimentation des tables Rdata en R script, agrégateur de flux excel.
Inventaire Statistiques
juillet 2017 - aujourd'hui
Inventaire Statistiques de réseaux de placettes selon des algorithmes d’Agroparitech et l’Onf. Développement d’un moteur d’alimentation des tables Rdata en R script, agrégateur de flux excel.
Études et formations
Entrepreneurship/Créateur
d’Entreprise Openclassrooms
2021
Master DataSientist CentraleSupélec/
Openclassrooms
2019
M2 IREN - Industries de Réseau et Économie Numérique École Polytechnique, Paris-Saclay, Dauphine, CentraleSupélec, Télécom ParisTech - Mention Bien
2018
M1 Economie Innovation - Mention Bien
IES Paris Sud Saclay
2017
Licence de Droit, Economie appliquée Paris Sud Mention Bien
2016
Langues
Anglais - C2
Autres compétences
FORMATION
1987 BTS Informatique PSI
1985 Classe préparatoire série P, Maths sup/spé - Lycée Honoré de Balzac
1982 BAC Série D
COMPETENCES
Economie de la data & Datascience NLP, ML / Deep learning
keras-tensorflow, PyTorch
Python Numpy,DataFrame Pyspark, Pandas, GeoPandas, jupyter notebook, Flask, Reactjs, MongoDB, Spark ML
Bénévolat:
Mentor DataScience Latitudes
DataForGood
Biomimétisme - Musée de l'homme NLP- étiqueter les articles scientifiques MinistèreSatellite OCO-2 détection du dioxyde de carbone croiser la modélisation inverse avec le machine learning,
- Saison 6 Audio WAZO Deep Learning
- Saison 4 Cour des Comptes Databox ******** pour le partage des données
- Saison 5 Arkhn données hospitalières