Khalil - tech lead data science

Ref : 190423L002
Disponible le 07/05/2024 Email vérifié
Photo de Khalil, tech lead data science
Compétences
MICROSOFT BI
APACHE HADOOP
APACHE HIVE
AZURE
Expériences professionnelles
  • Expérience professionnelle

    Période : 04/2021-04/2023
    Contrat : CDI avec onepoint
    Client : Société Générale
    Méthodes et Technologies : Python, spark, hadoop, hive, Datalake, Cloudera, Dataiku, tensorflow, keras, scikit-learn, NLP, mlflow, arbres de décision, xgboost, Datalab, Azure, Git, JIRA
    Rôle : Pour société générale : Teach Lead
    Pour onepoint : consultant manager
    Activité :
    Pour société générale : Participation à la création du scole data, participation à la construction du Datalab, participation à la construction du Data Solution Repository, Gestion et intervention technique sur quelques produits data : système de recommandation, système de prédiction de churn (départ des clients chez les concurrents), modèle d’octroi de prêt personnel immobilier, modèle de tarification pro adaptée à une nouvelle clientèle suite à l’acquisition de Shine (banque en ligne), Gestion des évolutions et de la migration vers le cloud Azure suite à la fusion avec Crédit du Nord, Gestion des demandes métiers, Gestion de l’audit, Animation des comités de suivi et comités opérationnels.
    Pour onepoint : recrutement de consultants, coaching et accompagnement des consultants, réponses aux appels d’offre, représentation de onepoint à des évènements orientés data.

    Période : 01/2020-04/2021
    Contrat : Freelance pour le compte de Microsoft
    Client : AXA assurance
    Méthodes et Technologies: Python, spark, hadoop, hive, DataLake, DeltaLake, Azure Storage, Azure DataFactory, Azure DataBricks, Azure Functions, Azure Monitoring, Azure DevOps, PowerBI Git, JIRA
    Rôle : Tech lead data engineer, représentant de Microsoft et scrum master
    Activité
    Migration de certains systèmes d’information vers le cloud Azure.
    Migration des processus de traitement depuis la collecte de données jusqu’au reporting sur le cloud
    Azure et migration des graphiques sur power bi.
    Maintien de la feuille de route et accompagnement des 4 data engineers internes pour monter en compétence et pour assurer les livrables.


    Période 06/2018-12/2019
    Contrat Freelance pour le compte de Sopra Steria
    Client Bnp Personal Finance
    Méthodes et
    Technologies
    Python, TensorFlow, scikit-learn, arbre de décision, DataLab, FastApi, C#.NEt, RPA avec UIPath.
    Rôle Tech lead data scientist, scrum master
    Activité ▪ Traitement des alertes liées aux personnes politiquement exposées (PEP), aux personnes sous sanction, mais
    également leurs proches (Relatives & Close Associates : RCA).
    ▪ Mise en place d’un modèle d’IA de classification automatique des alertes en vraie et fausses alertes (des
    millions d’alertes à traiter dont moins de 1% sont des vraies alertes).
    ▪ Gestion des recommandations d’audit.
    ▪ Mise en place d’une RPA exploitant le modèle d’IA afin d’interagir avec les alertes en passant par l’application
    en interface graphique des alertes comme un opérateur humain l’aurait fait (contrainte imposée de ne pas
    modifier directement les bases de données des alertes).
    ▪ Déploiement en France, et mise en place des interfaces graphiques de suivi des performances du modèle.
    ▪ Lead & Scrum master dans une équipe de 3 data scientists afin d’adapter le modèle aux contraintes des
    différents pays d’implantation de la BNP.
    ▪ Coordination avec les équipes à l’étranger pour recueillir les spécifications de chaque pays, pour récupérer les
    données, et pour la mise en production des versions adaptées dans les 18 pays en cible.
    ▪ Activités de suivi, de recette, d’analyse et de gestion des demandes métiers concernant l’interprétabilité ou
    l’évolution des modèles.
    ▪ Animation des workshops et comités de suivi

    BNP Personal Finance
    Depuis Juillet 2018 à aujourd’hui
    Synthèse :
    Projet d’analyse des alertes relatives au personnes politiquement exposées ou sanctionnées
    Rôle :
    Data Scientist/Engineer
    Réalisation :
    • Etudes et sélection paramètres/variables discriminantes
    • Etude et choix de mesures de similarités entre les données des clients et les données des listes d’alertes.
    • Mise en place d’un système d’identification des fausses alertes à clôturer et d’identification des alertes urgentes à traiter par les humains.
    • Mise en production en France (Décembre 2018)
    • Adaptation et mise en production en Italie (Février 2019)
    Environnement
    Python, Sparrow, C#.NET

    Groupe La Poste
    Janvier 2018 à Juin 2018
    Synthèse :
    Extraction de l’information utile à partir de documents de type pdf ou image. Analyse de données et apprentissage artificielle pour la classification des documents : pièce d’identité, bulletins de paie, facture, etc. L’objectif est l’implémentation de services basées sur les résultats obtenus tels que le « bulletin de paie augmenté » (un bulletin de paie où chaque champ est expliqué et vérifié par les formules de calcul connus, avec une présentation d’un résumé des bulletins de paie précédent et de l’évolution du salaire).
    Rôle :
    Data Scientist
    Réalisation :
    • Mise en place d’un modèle unifiée de données des bulletins de paie
    • Implémentation d’un flux d’extraction des données de bulletins de paie dans le modèle mis en place pour plusieurs types de bulletin de paie
    • Mise en place du flux de pré-traitement des documents de type image avec l’outil Opencv
    • Mise en place d’un système intelligent capable de reconnaitre le texte contenu dans les images prétraitées (Optical Character Recognition OCR) basé sur les réseaux de neurones
    • Entrainement du réseau de neurones sur les bulletins de paie en format image pour qu’il apprend à extraire le contenu souhaité
    • Entrainement d’un deuxième réseau de neurones pour qu’il apprend à extraire les informations souhaitées à partir des scans de pièces d’identité
    • Réalisation des scripts de pré-traitement pour améliorer la qualité des données
    • Intégration des données
    • Création et pré-installation des images docker pour le déploiement des solutions développées
    • Installation des solutions développées dans les images docker, test et vérification de leurs bon fonctionnement sur toute architecture linux, windows, et mac.
    • Réalisation d’une version s’exécutant localement sur le navigateur de l’utilisateur pour les utilisateurs qui ne souhaitent pas envoyer leurs données pour un traitement coté serveur
    • Optimisation de la version s’exécutant localement en utilisant les nouveaux concepts de workers en javascript pour la programmation parallèle
    Environnement
    Docker, python, Opencv, OCR et réseau de neurones, html et programmation parallèle en javascript.

    ECONOCOM – Direction Technology Management
    Septembre 2017 à Décembre 2017
    Synthèse :
    Industrialisation du projet Big Data dans un contexte multi-clients, multi-plateformes.
    Réalisation du datalake et mise en place de cas d’usage Data science permettant de définir de nouveaux services personnalisés dans le domaine de l’asset management et des services digitaux.
    Rôle :
    Data Scientist
    Réalisation :
    • Mise en place du flux d’alimentation du datalake
    • Ingestion des données multi-sources
    • Préparation des données et détection des anomalies
    • Réalisation des scripts de pré-traitement pour améliorer la qualité des données
    • Intégration des données
    • Modélisation des données intégrées
    • Synchronisation des flux
    • Conception et réalisation des indicateurs BI et des scripts machine learning permettant :
    o Suivi temps réel des coûts des services digitaux
    o Suivi temps réel des parcs (matériel en panne, en stock,…)
    o Segmentation des profils utilisateurs selon leurs usages
    • Mise en place des tableaux de bord
    • Rédaction /relecture des documents techniques (dossier de cadrage, document d’architecture technique, document de modélisation et document d’analyse).
    Environnement
    Cloudera, HDFS, YARN, Oozie, Apache Parquet, Spark, Spark MlLib, Spark ML, PySpark

    Laboratoire Informatique de Paris 6
    Septembre 2014 à Mai 2017
    Synthèse :
    - Système de recommandation de produits basé sur une nouvelle approche distribuée de machine learning. Application aux sites d’e-commerce et de streaming.
    - Système intelligent de reconnaissance des odeurs basé sur une nouvelle approche prédictive. Application aux nez électroniques (capteurs d’odeurs, contrôle qualité du café et du thé à partir de l’odeur, etc), et à la synthèse de nouveaux parfums sur mesure (recommandation des propriétés physico-chimiques à respecter pour la synthèse de molécules multi-odeurs avec des intensités variées : par exemple, synthèse d’une molécule émettant à la fois une odeur forte de du musc, une odeur modéré du citron, et une odeur faible de la menthe)
    Rôle :
    Data Scientist
    Réalisation :
    • Etude et analyse des limites des approches de machine learning existantes
    • Proposition de nouvelles approches améliorées de machine learning
    • Implémentation des méthodes proposées en C# et en Java
    • Tests et validation de l’efficacité des approches implémentées
    • Publication des méthodes implémentées dans revues spécialisées dans l’intelligence artificielle et dans le machine learning de renommé nationale (RNTI) et internationale (Springer et IEEE) :
    Rédactions/Publications scientifiques par rapport aux Systèmes de recommandation
    ********.1007/978-3-319-59647-1_8
    ********.1007/s13748-017-0133-5
    Rédactions/Publications scientifiques par rapport à la Prédiction
    ********/
    ********/
    ********.php?inprocid=1002302
    Environnement
    Neo4J, Hadoop, C#.NET, Visual Studio, Java, Eclipse

    Central Park Consulting
    Février 2017 à Avril 2017
    Synthèse :
    Projet de développement d’une plateforme Business Intelligence de contrôle et gestion de l’énergie (eau, électricité, CO2) pour le secteur immobilier
    Rôle :
    Data Engineer
    Réalisation :
    • Etudes et sélection des indicateurs de performances à considérer
    • Conception et mise en place du datawarehouse
    • Automatisation des tâches d’extraction et de chargement du datawarehouse
    • Automatisation des tâches d’historisation et mise à jour
    • Développement web de la plateforme avec un contrôle d’accès aux données et aux dimensions d’analyse
    • Visualisation sur la plateforme web des tableaux de bord et des graphiques
    Environnement
    MySql, C#.NET, EntityFramework, Linq, Javascript/JQuery/Ajax, HTML5/CSS, amcharts

    SM Emballage
    Décembre 2016 à Mars 2017
    Synthèse :
    Mise en place d’un système d’information pour la gestion des bons de commande, des ordres de fabrication, et le suivi des étapes de la production des emballages.
    Mise en place d’un datawarehouse et développement des tableau de bord (graphiques par client, par produit, par machine de production, et par année/mois)
    Rôle :
    Data Engineer
    Réalisation :
    • Mise en place du système d’information et développement de l’application de gestion
    • Mise en place du datawarehouse et développement des graphiques de contrôle qualité
    • Automatisation de la mise à jour des tableaux de bords et contrôle d’accès à l’application de gestion et aux graphiques
    Environnement
    SqlServer, C#.NET Visual Studio, HTML5/CSS, Javascript/JQuery, amcharts

    Soseltra
    Février 2014 à Juin 2014
    Synthèse :
    Plateforme pour un réseau social professionnel
    Rôle :
    Data Engineer C# MVC.NET
    Réalisation :
    • Définition des besoins avec la MOA
    • Conception UML
    • Développement de la plateforme de planification, d’affectation, et de suivi des tâches
    • Intégration de la partie publication de difficultés techniques, et des tutoriels de solution
    • Intégration de la partie publication, commentaires, et messages dans la plateforme
    Environnement
    Visual Studio 2012, C#, MVC.NET, Javascript, Jquery, Ajax, Entity Framework, LINQ, SqlServer 2008, agile (scrum)

    Infotram
    Juillet 2013 à Septembre 2013
    Synthèse :
    Plateforme de gestion de flux et d’efficacité de travail
    Rôle :
    Data Engineer C# MVC.NET
    Réalisation :
    • Définition des besoins avec la MOA
    • Conception UML
    • Développement de l’application de gestion de pointages, de temps de travail, et des heures supplémentaires
    • Intégration de la partie demande d’absences, de congé, et gestion du crédit de congé
    Environnement
    Visual Studio 2010, C#, MVC.NET, Javascript, Jquery, Ajax, LINQ, SqlServer 2008

    Munisys
    Avril 2013 à Juillet 2013
    Synthèse :
    Conception et mise en place du datawarehouse et repoting
    Rôle :
    Data Engineer BI
    Réalisation :
    • Définition des besoins avec la MOA
    • Rédaction de document de sélection et de calcul des indicateurs de qualité
    • Conception du datawarehouse
    • Développement des packages SSIS d’extraction et chargement de données, des packages SSAS de génération de cules multidimensionnels, et des tableaux de bord
    • Automatisation des tâches d’extraction de données et de mises à jour des cubes multidimensionnels
    Environnement
    Visual Studio 2010, SqlServer 2008, agile scrum

    EXPERIENCES PROFESSIONNELLES (FORMATEUR PROFESSIONNEL)
    Ib Formation
    Depuis juin 2018 : plusieurs sessions de 3 jours chacune
    Synthèse :
    Dispense d’une formation « Inter » suite à un cursus de formation en big data dans la partie DataViz et Data-Storytelling. La formation est destinée aux managers, aux data-scientists / data-analysts, et aux chefs de projets.
    Rôle :
    Formateur DataViz / DataStorytelling
    Réalisation :
    • Support théorique : document de formation avec captures d’écrans en 200 pages.
    • Ateliers pratique en se basant sur trois outils du marché : Tableau, Qlik, et PowerBI.
    • Technique de Data storytelling et préconisation
    • Ateliers pratique de Data storytelling.
    Environnement
    Tableau, Qlik, PowerBI

    INRA AgroParisTech
    Mars 2018 (5 jours)
    Synthèse :
    Dispense de formation « sur-mesure » aux équipes de l’unité de recherche scientifique AgroParisTech : Les Fondamentaux du Réseaux de Neurones & Usage de la Toolbox « Neural Network » du logiciel MATLAB – Cas de mise en oeuvre pour l’analyse de données de spectrométrie de masse pour la reconnaissance de formes.
    Rôle :
    Formateur Deep Learning/Réseaux de Neurones
    Réalisation :
    Préparation de l’atelier
    • Support théorique : Réseaux de neurones & Reconnaissance de formes
    • Design de cas d’étude (prise en main données INRA & Développement d’un code démonstrateur)
    • Préparation de l’environnement informatique INRA et configuration du cas d’étude
    • Elaboration du support de formation pratique du cas d’étude
    Animation de l’atelier
    • Théorie et Usage de la Toolbox Matlab - Neural Network
    • Travaux Pratiques sur le cas d’étude
    Environnement
    Matlab, Neural Network Toolbox, Simulink, Python

    EXPERIENCES PROFESSIONNELLES (FORMATEUR TECHNIQUE)
    Université Paris Est Marne la Vallée
    Janvier 2015 à Avril 2017
    Synthèse :
    Formations en C# WPF, Java, et en langage C
    Rôle :
    Vacataire responsable de TP/projets C# WPF, Java, C (1ère, 2ème, et 3ème année)
    Réalisation :
    Environnement
    • Préparation des TP/projets
    • Encadrement des étudiants et suivi de l’avancement des TP/ projets
    Visual studio, Langage C, C# WPF, Eclipse, Java Swing

    Ecole Supérieur D’Ingénieur en Electronique et Electrotechnique
    Janvier 2017 à Avril 2017
    Synthèse :
    Formations en C++, QT, et développement mobile
    Rôle :
    Vacataire responsable du cours C++ avancé et développement mobile
    Réalisation :
    Environnement
    • Préparation des cours/projets
    • Encadrement des étudiants et suivi de l’avancement des TP/ projets
    C++, QT

    Université Hassan II – Maroc
    Septembre 2014 à Décembre 2016
    Synthèse :
    Formations en Business Intelligence, Bases de données MySql, et en langage C
    Rôle :
    Vacataire responsable de cours/TP Microsoft BI+MySql+C (1ère, 2ème, et 3ème année)
    Réalisation :
    Environnement
    • Préparation des TP/projets
    • Encadrement des étudiants et suivi de l’avancement des TP/ projets
    Microsoft Business Intelligence, SqlServer, MySql, visual studio 2012

Études et formations
  • FORMATION

    2017 :
    Docteur en big data et Machine Learning, Université Pierre et Marie Curie de Paris 6
    Python, Hadoop, Spark, Docker, Weka machine learning, Arbres/Règles de décision, Réseaux de neurones/deep learning, SVM. Classification/Prédiction, Clustering, Segmentation temporelle, systèmes de recommandation.

    2014 :
    Ingénieur en génie logiciel et Business Intelligence, Université Hassan II de Casablanca
    C, C++, C#, Java/JEE, Javascript/JQuery, HTML5, Miscrosoft BI, UML, Scrum

    IA : Machine learning, Deep learning, NLP, XGBoost, Scikit-learn, Tensorflow, Keras, SparkML, H2O, ….
    Big data : Hadoop, HDFS, Hive, Hue, Spark, …
    Cloud : Azure data factory, Azure databricks, Azure functions, Azure monitoring, Azure Storage, …

    Langues : { Français : Bilingue, Anglais : Confirmé }

D'autres freelances
Formateur Data science

Ces profils pourraient vous intéresser !
CV Formatrice Data Science, BI et Informatique
Caro

Formatrice Data Science, BI et Informatique

  • MASSY
PYTHON SQL Microsoft Power BI Data science EXCEL TABLEAU SOFTWARE BIG DATA MICROSOFT POWER QUERY SAS Dataiku
Disponible
CV Data Scientist / Formateur / Consultant automatisation des tests Selenium
Lotfi

Data Scientist / Formateur / Consultant automatisation des tests Selenium

  • PARIS
PYTHON SQL Data science TABLEAU SOFTWARE OPENCV SELENIUM CUCUMBER POSTMAN Microsoft Power BI
CV Data Scientist BIG DATA
Rafik

Data Scientist BIG DATA

  • BLOIS
Data science LINUX PYTHON EXCEL BUSINESS OBJECTS ORACLE Jupyter JAVASCRIPT PHP LARAVEL JAVA
CV Machine Learning Engineer / Développeur Python
Jean

Machine Learning Engineer / Développeur Python

  • MONTIGNY-LE-BRETONNEUX
PYTHON Data science SQL
CV Formateur Excel VBA, BI & Python
Samy

Formateur Excel VBA, BI & Python

  • VILLEURBANNE
VBA EXCEL Microsoft Power BI Data science PYTHON
Disponible
CV Développeur
Félix

Développeur

  • PARIS
PYTHON Data science HTML CSS JAVASCRIPT
CV Senior Data Scientist, Formatrice machine learning/deep learning
Sabrine

Senior Data Scientist, Formatrice machine learning/deep learning

  • CACHAN
PYTHON Dataiku DATAVIZ Data science R Google Cloud Platform
CV Data Scientist
Yacine

Data Scientist

  • FONTENAY-SOUS-BOIS
PYTHON Data science Jupyter MATLAB
CV Data Scientist Data Analyst Data science R DATAVIZ
Servane

Data Scientist Data Analyst Data science R DATAVIZ

  • MONTROUGE
R DATAVIZ Data science
CV Formateur Data science
Belkziz

Formateur Data science

  • VITRY-SUR-SEINE
Data science BIG DATA