Khalil - tech lead data science

Ref : 190423L002

Disponible le 07/05/2024 Email vérifié

92120 MONTROUGE
Formateur, Data Scientist, Développeur (32 ans)
Totalement mobile
En portage salarial

Compétences

PYTHON

MICROSOFT BI

APACHE HADOOP

APACHE SPARK

DOCKER

Data science

BIG DATA

APACHE HIVE

SCRUM

AZURE

Expériences professionnelles

Expérience professionnelle

Période : 04/2021-04/2023
Contrat : CDI avec onepoint
Client : Société Générale
Méthodes et Technologies : Python, spark, hadoop, hive, Datalake, Cloudera, Dataiku, tensorflow, keras, scikit-learn, NLP, mlflow, arbres de décision, xgboost, Datalab, Azure, Git, JIRA
Rôle : Pour société générale : Teach Lead
Pour onepoint : consultant manager
Activité :
Pour société générale : Participation à la création du scole data, participation à la construction du Datalab, participation à la construction du Data Solution Repository, Gestion et intervention technique sur quelques produits data : système de recommandation, système de prédiction de churn (départ des clients chez les concurrents), modèle d’octroi de prêt personnel immobilier, modèle de tarification pro adaptée à une nouvelle clientèle suite à l’acquisition de Shine (banque en ligne), Gestion des évolutions et de la migration vers le cloud Azure suite à la fusion avec Crédit du Nord, Gestion des demandes métiers, Gestion de l’audit, Animation des comités de suivi et comités opérationnels.
Pour onepoint : recrutement de consultants, coaching et accompagnement des consultants, réponses aux appels d’offre, représentation de onepoint à des évènements orientés data.

Période : 01/2020-04/2021
Contrat : Freelance pour le compte de Microsoft
Client : AXA assurance
Méthodes et Technologies: Python, spark, hadoop, hive, DataLake, DeltaLake, Azure Storage, Azure DataFactory, Azure DataBricks, Azure Functions, Azure Monitoring, Azure DevOps, PowerBI Git, JIRA
Rôle : Tech lead data engineer, représentant de Microsoft et scrum master
Activité
Migration de certains systèmes d’information vers le cloud Azure.
Migration des processus de traitement depuis la collecte de données jusqu’au reporting sur le cloud
Azure et migration des graphiques sur power bi.
Maintien de la feuille de route et accompagnement des 4 data engineers internes pour monter en compétence et pour assurer les livrables.

Période 06/2018-12/2019
Contrat Freelance pour le compte de Sopra Steria
Client Bnp Personal Finance
Méthodes et
Technologies
Python, TensorFlow, scikit-learn, arbre de décision, DataLab, FastApi, C#.NEt, RPA avec UIPath.
Rôle Tech lead data scientist, scrum master
Activité ▪ Traitement des alertes liées aux personnes politiquement exposées (PEP), aux personnes sous sanction, mais
également leurs proches (Relatives & Close Associates : RCA).
▪ Mise en place d’un modèle d’IA de classification automatique des alertes en vraie et fausses alertes (des
millions d’alertes à traiter dont moins de 1% sont des vraies alertes).
▪ Gestion des recommandations d’audit.
▪ Mise en place d’une RPA exploitant le modèle d’IA afin d’interagir avec les alertes en passant par l’application
en interface graphique des alertes comme un opérateur humain l’aurait fait (contrainte imposée de ne pas
modifier directement les bases de données des alertes).
▪ Déploiement en France, et mise en place des interfaces graphiques de suivi des performances du modèle.
▪ Lead & Scrum master dans une équipe de 3 data scientists afin d’adapter le modèle aux contraintes des
différents pays d’implantation de la BNP.
▪ Coordination avec les équipes à l’étranger pour recueillir les spécifications de chaque pays, pour récupérer les
données, et pour la mise en production des versions adaptées dans les 18 pays en cible.
▪ Activités de suivi, de recette, d’analyse et de gestion des demandes métiers concernant l’interprétabilité ou
l’évolution des modèles.
▪ Animation des workshops et comités de suivi

BNP Personal Finance
Depuis Juillet 2018 à aujourd’hui
Synthèse :
Projet d’analyse des alertes relatives au personnes politiquement exposées ou sanctionnées
Rôle :
Data Scientist/Engineer
Réalisation :
• Etudes et sélection paramètres/variables discriminantes
• Etude et choix de mesures de similarités entre les données des clients et les données des listes d’alertes.
• Mise en place d’un système d’identification des fausses alertes à clôturer et d’identification des alertes urgentes à traiter par les humains.
• Mise en production en France (Décembre 2018)
• Adaptation et mise en production en Italie (Février 2019)
Environnement
Python, Sparrow, C#.NET

Groupe La Poste
Janvier 2018 à Juin 2018
Synthèse :
Extraction de l’information utile à partir de documents de type pdf ou image. Analyse de données et apprentissage artificielle pour la classification des documents : pièce d’identité, bulletins de paie, facture, etc. L’objectif est l’implémentation de services basées sur les résultats obtenus tels que le « bulletin de paie augmenté » (un bulletin de paie où chaque champ est expliqué et vérifié par les formules de calcul connus, avec une présentation d’un résumé des bulletins de paie précédent et de l’évolution du salaire).
Rôle :
Data Scientist
Réalisation :
• Mise en place d’un modèle unifiée de données des bulletins de paie
• Implémentation d’un flux d’extraction des données de bulletins de paie dans le modèle mis en place pour plusieurs types de bulletin de paie
• Mise en place du flux de pré-traitement des documents de type image avec l’outil Opencv
• Mise en place d’un système intelligent capable de reconnaitre le texte contenu dans les images prétraitées (Optical Character Recognition OCR) basé sur les réseaux de neurones
• Entrainement du réseau de neurones sur les bulletins de paie en format image pour qu’il apprend à extraire le contenu souhaité
• Entrainement d’un deuxième réseau de neurones pour qu’il apprend à extraire les informations souhaitées à partir des scans de pièces d’identité
• Réalisation des scripts de pré-traitement pour améliorer la qualité des données
• Intégration des données
• Création et pré-installation des images docker pour le déploiement des solutions développées
• Installation des solutions développées dans les images docker, test et vérification de leurs bon fonctionnement sur toute architecture linux, windows, et mac.
• Réalisation d’une version s’exécutant localement sur le navigateur de l’utilisateur pour les utilisateurs qui ne souhaitent pas envoyer leurs données pour un traitement coté serveur
• Optimisation de la version s’exécutant localement en utilisant les nouveaux concepts de workers en javascript pour la programmation parallèle
Environnement
Docker, python, Opencv, OCR et réseau de neurones, html et programmation parallèle en javascript.

ECONOCOM – Direction Technology Management
Septembre 2017 à Décembre 2017
Synthèse :
Industrialisation du projet Big Data dans un contexte multi-clients, multi-plateformes.
Réalisation du datalake et mise en place de cas d’usage Data science permettant de définir de nouveaux services personnalisés dans le domaine de l’asset management et des services digitaux.
Rôle :
Data Scientist
Réalisation :
• Mise en place du flux d’alimentation du datalake
• Ingestion des données multi-sources
• Préparation des données et détection des anomalies
• Réalisation des scripts de pré-traitement pour améliorer la qualité des données
• Intégration des données
• Modélisation des données intégrées
• Synchronisation des flux
• Conception et réalisation des indicateurs BI et des scripts machine learning permettant :
o Suivi temps réel des coûts des services digitaux
o Suivi temps réel des parcs (matériel en panne, en stock,…)
o Segmentation des profils utilisateurs selon leurs usages
• Mise en place des tableaux de bord
• Rédaction /relecture des documents techniques (dossier de cadrage, document d’architecture technique, document de modélisation et document d’analyse).
Environnement
Cloudera, HDFS, YARN, Oozie, Apache Parquet, Spark, Spark MlLib, Spark ML, PySpark

Laboratoire Informatique de Paris 6
Septembre 2014 à Mai 2017
Synthèse :
- Système de recommandation de produits basé sur une nouvelle approche distribuée de machine learning. Application aux sites d’e-commerce et de streaming.
- Système intelligent de reconnaissance des odeurs basé sur une nouvelle approche prédictive. Application aux nez électroniques (capteurs d’odeurs, contrôle qualité du café et du thé à partir de l’odeur, etc), et à la synthèse de nouveaux parfums sur mesure (recommandation des propriétés physico-chimiques à respecter pour la synthèse de molécules multi-odeurs avec des intensités variées : par exemple, synthèse d’une molécule émettant à la fois une odeur forte de du musc, une odeur modéré du citron, et une odeur faible de la menthe)
Rôle :
Data Scientist
Réalisation :
• Etude et analyse des limites des approches de machine learning existantes
• Proposition de nouvelles approches améliorées de machine learning
• Implémentation des méthodes proposées en C# et en Java
• Tests et validation de l’efficacité des approches implémentées
• Publication des méthodes implémentées dans revues spécialisées dans l’intelligence artificielle et dans le machine learning de renommé nationale (RNTI) et internationale (Springer et IEEE) :
Rédactions/Publications scientifiques par rapport aux Systèmes de recommandation
********.1007/978-3-319-59647-1_8
********.1007/s13748-017-0133-5
Rédactions/Publications scientifiques par rapport à la Prédiction
********/
********/
********.php?inprocid=1002302
Environnement
Neo4J, Hadoop, C#.NET, Visual Studio, Java, Eclipse

Central Park Consulting
Février 2017 à Avril 2017
Synthèse :
Projet de développement d’une plateforme Business Intelligence de contrôle et gestion de l’énergie (eau, électricité, CO2) pour le secteur immobilier
Rôle :
Data Engineer
Réalisation :
• Etudes et sélection des indicateurs de performances à considérer
• Conception et mise en place du datawarehouse
• Automatisation des tâches d’extraction et de chargement du datawarehouse
• Automatisation des tâches d’historisation et mise à jour
• Développement web de la plateforme avec un contrôle d’accès aux données et aux dimensions d’analyse
• Visualisation sur la plateforme web des tableaux de bord et des graphiques
Environnement
MySql, C#.NET, EntityFramework, Linq, Javascript/JQuery/Ajax, HTML5/CSS, amcharts

SM Emballage
Décembre 2016 à Mars 2017
Synthèse :
Mise en place d’un système d’information pour la gestion des bons de commande, des ordres de fabrication, et le suivi des étapes de la production des emballages.
Mise en place d’un datawarehouse et développement des tableau de bord (graphiques par client, par produit, par machine de production, et par année/mois)
Rôle :
Data Engineer
Réalisation :
• Mise en place du système d’information et développement de l’application de gestion
• Mise en place du datawarehouse et développement des graphiques de contrôle qualité
• Automatisation de la mise à jour des tableaux de bords et contrôle d’accès à l’application de gestion et aux graphiques
Environnement
SqlServer, C#.NET Visual Studio, HTML5/CSS, Javascript/JQuery, amcharts

Soseltra
Février 2014 à Juin 2014
Synthèse :
Plateforme pour un réseau social professionnel
Rôle :
Data Engineer C# MVC.NET
Réalisation :
• Définition des besoins avec la MOA
• Conception UML
• Développement de la plateforme de planification, d’affectation, et de suivi des tâches
• Intégration de la partie publication de difficultés techniques, et des tutoriels de solution
• Intégration de la partie publication, commentaires, et messages dans la plateforme
Environnement
Visual Studio 2012, C#, MVC.NET, Javascript, Jquery, Ajax, Entity Framework, LINQ, SqlServer 2008, agile (scrum)

Infotram
Juillet 2013 à Septembre 2013
Synthèse :
Plateforme de gestion de flux et d’efficacité de travail
Rôle :
Data Engineer C# MVC.NET
Réalisation :
• Définition des besoins avec la MOA
• Conception UML
• Développement de l’application de gestion de pointages, de temps de travail, et des heures supplémentaires
• Intégration de la partie demande d’absences, de congé, et gestion du crédit de congé
Environnement
Visual Studio 2010, C#, MVC.NET, Javascript, Jquery, Ajax, LINQ, SqlServer 2008

Munisys
Avril 2013 à Juillet 2013
Synthèse :
Conception et mise en place du datawarehouse et repoting
Rôle :
Data Engineer BI
Réalisation :
• Définition des besoins avec la MOA
• Rédaction de document de sélection et de calcul des indicateurs de qualité
• Conception du datawarehouse
• Développement des packages SSIS d’extraction et chargement de données, des packages SSAS de génération de cules multidimensionnels, et des tableaux de bord
• Automatisation des tâches d’extraction de données et de mises à jour des cubes multidimensionnels
Environnement
Visual Studio 2010, SqlServer 2008, agile scrum

EXPERIENCES PROFESSIONNELLES (FORMATEUR PROFESSIONNEL)
Ib Formation
Depuis juin 2018 : plusieurs sessions de 3 jours chacune
Synthèse :
Dispense d’une formation « Inter » suite à un cursus de formation en big data dans la partie DataViz et Data-Storytelling. La formation est destinée aux managers, aux data-scientists / data-analysts, et aux chefs de projets.
Rôle :
Formateur DataViz / DataStorytelling
Réalisation :
• Support théorique : document de formation avec captures d’écrans en 200 pages.
• Ateliers pratique en se basant sur trois outils du marché : Tableau, Qlik, et PowerBI.
• Technique de Data storytelling et préconisation
• Ateliers pratique de Data storytelling.
Environnement
Tableau, Qlik, PowerBI

INRA AgroParisTech
Mars 2018 (5 jours)
Synthèse :
Dispense de formation « sur-mesure » aux équipes de l’unité de recherche scientifique AgroParisTech : Les Fondamentaux du Réseaux de Neurones & Usage de la Toolbox « Neural Network » du logiciel MATLAB – Cas de mise en oeuvre pour l’analyse de données de spectrométrie de masse pour la reconnaissance de formes.
Rôle :
Formateur Deep Learning/Réseaux de Neurones
Réalisation :
Préparation de l’atelier
• Support théorique : Réseaux de neurones & Reconnaissance de formes
• Design de cas d’étude (prise en main données INRA & Développement d’un code démonstrateur)
• Préparation de l’environnement informatique INRA et configuration du cas d’étude
• Elaboration du support de formation pratique du cas d’étude
Animation de l’atelier
• Théorie et Usage de la Toolbox Matlab - Neural Network
• Travaux Pratiques sur le cas d’étude
Environnement
Matlab, Neural Network Toolbox, Simulink, Python

EXPERIENCES PROFESSIONNELLES (FORMATEUR TECHNIQUE)
Université Paris Est Marne la Vallée
Janvier 2015 à Avril 2017
Synthèse :
Formations en C# WPF, Java, et en langage C
Rôle :
Vacataire responsable de TP/projets C# WPF, Java, C (1ère, 2ème, et 3ème année)
Réalisation :
Environnement
• Préparation des TP/projets
• Encadrement des étudiants et suivi de l’avancement des TP/ projets
Visual studio, Langage C, C# WPF, Eclipse, Java Swing

Ecole Supérieur D’Ingénieur en Electronique et Electrotechnique
Janvier 2017 à Avril 2017
Synthèse :
Formations en C++, QT, et développement mobile
Rôle :
Vacataire responsable du cours C++ avancé et développement mobile
Réalisation :
Environnement
• Préparation des cours/projets
• Encadrement des étudiants et suivi de l’avancement des TP/ projets
C++, QT

Université Hassan II – Maroc
Septembre 2014 à Décembre 2016
Synthèse :
Formations en Business Intelligence, Bases de données MySql, et en langage C
Rôle :
Vacataire responsable de cours/TP Microsoft BI+MySql+C (1ère, 2ème, et 3ème année)
Réalisation :
Environnement
• Préparation des TP/projets
• Encadrement des étudiants et suivi de l’avancement des TP/ projets
Microsoft Business Intelligence, SqlServer, MySql, visual studio 2012

Études et formations

FORMATION

2017 :
Docteur en big data et Machine Learning, Université Pierre et Marie Curie de Paris 6
Python, Hadoop, Spark, Docker, Weka machine learning, Arbres/Règles de décision, Réseaux de neurones/deep learning, SVM. Classification/Prédiction, Clustering, Segmentation temporelle, systèmes de recommandation.

2014 :
Ingénieur en génie logiciel et Business Intelligence, Université Hassan II de Casablanca
C, C++, C#, Java/JEE, Javascript/JQuery, HTML5, Miscrosoft BI, UML, Scrum

IA : Machine learning, Deep learning, NLP, XGBoost, Scikit-learn, Tensorflow, Keras, SparkML, H2O, ….
Big data : Hadoop, HDFS, Hive, Hue, Spark, …
Cloud : Azure data factory, Azure databricks, Azure functions, Azure monitoring, Azure Storage, …

Langues : { Français : Bilingue, Anglais : Confirmé }