Christian - Data Scientist LINUX
Ref : 170726M001-
Domicile
78520 BUC
-
Profil
Data Scientist (61 ans)
-
StatutFreelance
-
Projet Catégorisation automatique
NPL de questions StackOverFlowJan 2018 - aujourd'huiML non supervisé LDA, Allocation de Dirichlet Latente, calcul de la matrice de probabilité de présence de chaque mot
- L supervisé, classification multi class avec la stratégie One Versus Rest (OVR)
- Modèles Logistique avec pénalité de Ridge, SVM, RN multilayer perceptron, Random Forest, Gradient Boosting classifier,
réduction des dimensions avec PCA.
- Création de deux Api de catégorisation, non supervisé et supervisé, Rédaction d’un document de Datascience -
Projet Datazone, Segmentation automatique des clients.Jan 2018 - aujourd'hui
Recherche de la classification/segmentation client optimale, Clustering Kmean++ , Score RFM
- Sélection du meilleur classifieur : Précision, taux de bon classement, matrice de confusion, courbe ROC.
- Hyperparamètres optimaux obtenus par Cross-validation
- Modèle Regression Logistique avec pénalité, Gradient Boosting classifier, Random Forest classifier, SVM Support Vector
Machine ou Séparateur à Marges Maximales, Classifieur à réseau de neurones multi-layer perceptron
- Appli python de classification des clients, Dossier de Datascience -
Data scientist/Manager
Primaxia sociétéJan 2018 - aujourd'huiAide à la transformation numérique autour de la chaîne de valeur du Big Data.
- Chaîne de process de la data, centralisation des data
- Pour la Direction Financière de Primaxia - comprendre le comportement client.
- Mémoire de recherche M2 IREN sur la création de la valeur par donnée dans le big data -
Analyse graphique
ACP en RJan 2018 - aujourd'huid’une base de données nutritionnelle pour prédire des compositions pertinentes. Correction des données manquantes par la méthode KNN, Cross-validation. Python et R. Interprétation et préconisation de compositions.
- Création d’une librairie python KNN avec distance Euclidienne, Chi2, One Hot Encoding, distance de Canberra, Jaccard, Hamming, Manhattan, Standardisation, vérité de terrain.
- Automatisation du Reporting des statistiques descriptives
- Présention Pwt enregistrée en vidéo -
Etude économétrique
Social Network d’inventeurs,Jan 2018 - aujourd'huiune base de brevets de l’Ocde, par la Théorie des Graphes. Modèle de Poisson et Binomial négatif pour prévoir les nombres de Claims/revendications, et les Forward Citations. Avec R, Stata et Python. Profiler les inventeurs star et les paramètres de brevet donnant de la valeur aux brevets.
environnement technique : collecte des données, datamining, statistiques, économétrie
Fonctionnel économie, environnement technique : collecte des données, datamining, statistiques, économétrie -
Inventaire Statistiques de réseaux
Jan 2018 - aujourd'huiCréation d’une Application R de génération d’une appli de control (en R) des données manquantes, aberrantes, erreur de typologie.
-
Jan 2017 - aujourd'hui
Etude économétrique des facteurs socio-économiques du chômage dans les régions européennes. Agrégation de 8 bases Eurostat. Modélisation en données de panel, modèles between, within, pooling langage R.
Fonctionnel économie, environnement technique : collecte des données, datamining, statistiques, économétrie -
Chef de Projet
Jan 2017 - aujourd'huiAménagement Onf : c’est l’application de gestion durable des forêts publiques françaises.
- création du schéma postgres, et d’un framework Angular js,
- appli R de génération automatique des formulaires d’écran + dao +Ctrlr, et html de statistiques descriptives -
Inventaire Statistiques de réseaux de placettes
Jan 2017 - aujourd'huiInventaire Statistiques de réseaux de placettes selon des algorithmes d’Agroparitech et l’Onf. Développement d’un moteur d’alimentation des tables Rdata en R script, agrégateur de flux excel.
-
Inventaire Statistiques
Jan 2017 - aujourd'huiInventaire Statistiques de réseaux de placettes selon des algorithmes d’Agroparitech et l’Onf. Développement d’un moteur d’alimentation des tables Rdata en R script, agrégateur de flux excel.
FORMATION
2019/02 Diplôme Data Sientist
CentraleSupélec/Openclassrooms
2019 Formation ReactJs, Orsys
2018 Formation Data Scientist - CentraleSupélec (en cours)
2017-2018 Master 2 Iren Industrie de Réseau et Economie Numérique ********/
Master 2 organisé par l’École Polytechnique, Paris-Sud, Dauphine, CentraleSupélec, Télécom ParisTech
2017 Master 1 Economie Innovation, Entreprise et Société IES ead - Paris-Saclay - mention bien
2017 Formation à la programmation SAS prog I, SAS Institute
2016 Mooc Paris-Saclay, Introduction à la Statistique avec R script, RStudio 96%,
2016 Licence de Droit, Economie, Gestion ead - mention bien
Parcours économie appliquée - Université Paris Sud
1987 BTS Informatique PSI
1982/85 Classe préparatoire série P, Maths sup/spé - Lycée Honoré de Balzac
1982 BAC Série D
-Formations Sqli: Angular JS, Optimisation des requêtes Oracle, No Sql Cassandra
COMPETENCES
Outils Statistiques R script, SAS, Stata, SPAD, Python
Machine learning modèles statistiques, algorithme KNN, Cross-validation
Data Mining Méthodes ACP, CAH Analyse hiérarchique ascendante
Informatique Python, Jupiter Notebook, PL/SQL, Php, JavaScript, html, css, Angular JS,
Django, python http, Apache, Excel vba, Linux Shell,
Méthodes/outils RStudio, Spyder, Matlab, Latex, Agile Scrum, Uml
Bases MySQL, Postgres, No sql Cassandra, Oracle, Sql Server
2019/02 Diplôme Data Sientist
CentraleSupélec/Openclassrooms
2019 Formation ReactJs, Orsys
2018 Formation Data Scientist - CentraleSupélec (en cours)
2017-2018 Master 2 Iren Industrie de Réseau et Economie Numérique ********/
Master 2 organisé par l’École Polytechnique, Paris-Sud, Dauphine, CentraleSupélec, Télécom ParisTech
2017 Master 1 Economie Innovation, Entreprise et Société IES ead - Paris-Saclay - mention bien
2017 Formation à la programmation SAS prog I, SAS Institute
2016 Mooc Paris-Saclay, Introduction à la Statistique avec R script, RStudio 96%,
2016 Licence de Droit, Economie, Gestion ead - mention bien
Parcours économie appliquée - Université Paris Sud
1987 BTS Informatique PSI
1982/85 Classe préparatoire série P, Maths sup/spé - Lycée Honoré de Balzac
1982 BAC Série D
-Formations Sqli: Angular JS, Optimisation des requêtes Oracle, No Sql Cassandra
COMPETENCES
Outils Statistiques R script, SAS, Stata, SPAD, Python
Machine learning modèles statistiques, algorithme KNN, Cross-validation
Data Mining Méthodes ACP, CAH Analyse hiérarchique ascendante
Informatique Python, Jupiter Notebook, PL/SQL, Php, JavaScript, html, css, Angular JS,
Django, python http, Apache, Excel vba, Linux Shell,
Méthodes/outils RStudio, Spyder, Matlab, Latex, Agile Scrum, Uml
Bases MySQL, Postgres, No sql Cassandra, Oracle, Sql Server