Achraf - Data Scientist PYTHON
Ref : 190724S001-
93150 LE BLANC MESNIL
-
Data Scientist (28 ans)
-
Freelance
EXPERIENCE PROFESSIONNELLE
Octobre 2019
Data Scientist confirmé : Groupe Crédit Agricole DataLab, Montrouge , France
Projet : Automatisation des processus d’attribution de crédit de la caisse régionale de Toulouse
• Implémentation d’une solution de classification de documents en se basant sur une approche visuelle d’analyse
sémantique.
• Apprentissage de différentes architectures de réseaux de neurones convolutifs par une technique de transfert
learning.
• Développement de différentes approches d’interprétabilité des résultats du modèle.
• Serving du modèle en production à l’aide de l’outil tensorflow-serving .
Projet : Traitement automatique de mails pour la caisse régionale de Ille-et-Vilaine
• Apprentissage de réseaux de neurones récurrents de type Bi-LSTM pour la segmentation des mails
• Encapsulation d’une brique générique de segmentation de mails
Compétences techniques : Python , Keras , Tensorflow , Opencv , Computer Vision , NLP , Git , OCR ,
scikit-learn
Depuis Janvier 2019
BNP PARIBAS - SECURITIES SERVICES
Data Scientist Confirmé / Data Engineer : BNP Paribas Securities Services , Paris , France
Projet : Digitalisation et automatisation des processus métier pour des marchés / hubs internationaux via des solutions de l'Intelligence Artificielle (natural language processing / machine learning)
Développement d’une API pour la classification automatique de mails sur le serveur de messagerie Exchange en utilisant différentes approches de traitement de langage naturel.
Design d’architecture et prototypage de la solution IA réalisant l’extraction des entités nommées à partir de fichier Excel / PDF / Texte
Application de frameworks deep learning pour le traitement de texte.
Mai 2017 - Decembre 2018
BNP PARIBAS
Data Scientist / Data Engineer : BNP Paribas, Paris , France
Projet : Mise en place d’un moteur de recommandation qui permet de matcher entre collaborateur et offre
de mission / formation . Application ouverte à plus de 100 000 utilisateurs.
Accompagnement du client dans la démarche de définition du besoin / Organisation des ateliers métiers.
Développement des jobs Spark Scala batch pour les traitements et préparation des gros volumes et différents types de données en entrée ( CSV , XML , JSON ..)
Développement des algorithmes NLP permettant une analyse sémantique des offres de mission / formation, en se basant sur un modèle de représentation vectorielle des mots (Word2Vec).
Développement des workflows Oozie pour ordonnancer les jobs Spark
Optimisation du temps de traitement et performance en production ; Tunning des algorithmes.
Mettre en place des indicateurs de performance (KPI) / analyses statistiques et représentations visuelles.
Migration de la plateforme BigInsights ( Spark 1.5) vers la plateforme HortonWorks ( Spark 2.2) .
Développement d’une API en JAVA de push de données vers des clusters distants .
Définition et validation des scénarios de tests .
Assister le client dans la procédure de construction d’un DataLake .
Compétences techniques : Python , Tensorflow , JAVA , NLP , Docker , Swagger
Compétences techniques : HortonWorks , JAVA , NLP , Scala , Python , ANN , Word2vec , Hive , Spark
Mars 2017 - Décembre 2018
CAPGEMINI
Data Scientist : Capgemini , Suresnes , France .
Projet R&D : Traitement automatique des documents scannés
Classification des factures scannées à travers une reconnaissance de logo – Entrainement des modèles de reconnaissance par des méthodes de boosting [ADABoost, XGBoost]
Reconnaissance optique de caractères – Tesseract OCR
Parsing et structuration du texte brut
Projet R&D : Applications NLP
Web Scrapping – [BeautifulSoup] & Automatic summarization
Topic modelling [LDA]
Text classification [SVM, Naives Bayes ...]
Outils utilisés : Python , Gensim , Machine learning , NLP , OCR , Image Detection/ Image Recognition, ANN ,Text mining , Computer Vision , Yolo
Janvier 2017 - Mars 2017
CAMTEL
Data Scientist : CAMTEL ( Cameroon Telecommunications) &ENSEEIHT
Projet : Détection de fraude à la Simbox
Profiling et analyse des CDR (enregistrements des détails des appels) pour extraire les critères de détection de fraude à la SIMBOX .
Utilisation des algorithmes Machine Learning ( Supervised & Unsupervised Clustering ) pour une identification proactive des profils fraudeurs .
Visualisation interactive et restitution des résultats.
Compétences techniques : Python, Gensim , Machine learning , NLP , OCR , Image Detection/ Image
Recognition, ANN ,Text mining , Computer Vision
Compétences techniques Python , Scikit-Learn, Apache Spark , Mlib , Angular 2 , D3JS
FORMATIONS
2014 - 2017 -
Élève-ingénieur INP ENSEEIHT en Informatique et mathématiques appliquées
Institut National Polytechnique de Toulouse - École Nationale Supérieure Électrotechnique, d’Électronique, d’Informatique, d’Hydraulique et des Télécommunications - Toulouse, France.
Informatique: Middleware , Ingénierie des modèles ,Big Data& CloudComputing ,Systèmes etApplications répartis, Systèmes d'information et Sécurité .
Mathématiques appliquées : Classification, Machine Learning, Optimisation numérique, Prévision Stochastique et Analyse Bayésienne, Recherche Opérationnelle.
2012 - 2014
Classes Préparatoires aux Grandes Écoles, Filière MP (Mathématiques Physiques)
Lycée Réda Slaoui - Agadir ,Maroc
CERTIFICATIONS
Dataiku DSS : Certified User
Deep Learning Fundamentals : IBM Cognitive Class
Deep Learning with Tensor Flow : IBM Cognitive Class
Scala Programming for Data Science : IBM Cognitive Class
Text Analytics : IBM Cognitive Class
COMPETENCES TECHNIQUES
Programmation : Python, Scala, Sql, Java
Big Data : Spark 1.6 , Spark 2.x , Hadoop , Hue , Ambari , HDFS , Oozie , Hive
Data Science : scikit-learn, TensorFlow, Pandas, matplotlib, numpy,MLib , Gensim , Nltk , StanfordNLP .
NLP (Matching, OCR, Chunking ,Word Embeddings , Sentiment Analysis, Entity Extraction, Document Classification, Topic Modeling )
Computer Vision (Object Detection & Recognition)
Time Series Forecasting
Deep Learning
OS : Linux, Windows, Cloud Based OS Amazon EC2
Autres : git, Excel, Intellij, Eclipse
COMPETENCES METIERS
• HR Analytics : Prédiction des besoins RH en terme de recrutement automatique et création de passerelles métiers.
• Détection de la fraude à la SIMBOX .
• Banques et assurances .