Isam - Data Scientist UNIX

Ref : 200805E001

93360 NEUILLY PLAISANCE
Data Scientist, Directeur de projet, Formateur (44 ans)
Totalement mobile
En cours d'immatriculation

Compétences

UNIX

LINUX

SQL

TALEND

PYTHON

BIG DATA

APACHE SPARK

SCALA

ELK

APACHE HIVE

Expériences professionnelles

EXPERIENCE PROFESSIONNELLE

MARS 2020 – AUJOURD’HUI : CAISSE NATIONALE DE L’ASSURANCE MALADIE (CNAM)
Data Scientist
Contexte : Développement d’un outil de contrôle des documents internes (format image). Empêcher l’export et l’import des
fichiers images contenant des données sensibles. Reconnaissance des objets par des techniques Computer vision et
reconnaissance optique des caractères.
Mission :
- Réalisation des modèles d’IA pour répondre à la problématique
- Documentation & guide d’utilisateur
Vision par ordinateur
- Implémentation d’un algorithme de localisation du texte dans une image.
- Implémentation d’un modèle de reconnaissance des caractères
- Implémentation d’un CNN (Architecture Deep Learning) pour la classification d’images et la localisation d’objets.
- Traitement de l’image à l’aide des méthodes « Non-max Suppression » et « Anchor Boxes »
Environnement technique : Python, Tensorflow, Keras, Numpy, Scipy, Pandas, Scikit-Learn, Git

SEPTEMBRE 2019 – FÉVRIER 2020 : TALAN
Lead Data Scientist
Contexte : Développement d’un chatbot intelligent capable de proposer les meilleures réponses aux utilisateurs.
Entrainer le chatbot pour analyser visuellement et textuellement son interaction avec l’utilisateur pour savoir à quel moment il
doit le diriger vers le service client (Humain)
Mission :
- Réfèrent technique pour le projet
- Recueil des besoins liés à la problématique du POC
- Réalisation des modèles d’IA pour répondre à la problématique
- Documentation & guide d’utilisateur
Traitement automatique du langage naturel
- Analyse des sentiments pour améliorer la performance des réponses du chatbot
- Web scraping
- Tokenization
- Stemming & Lemmatization
- Removing Stop Words and Punctuation
- Computing term frequencies (Tf-idf)
- Word Embeddings & Latent Dirichlet Allocation
- Clustering (K-Means algorithm, hierarchical based algorithm)
- Model Evaluation
- Visualisation, Matplotlob
Vision par ordinateur
- Implémentation de l’approche convolutionnelle de l’algorithme « Sliding Windows & YOLO » pour la classification
d’images et la localisation d’objets, à partir d’images extraites d’un flux vidéo en temps réel
- Implémentation d’un CNN (Architecture Deep Learning) pour la classification d’images et la localisation d’objets, à
partir d’images extraites d’un flux vidéo en temps réel
- Traitement de l’image à l’aide des méthodes « Non-max Suppression » et « Anchor Boxes »
- Détection d’objets en temps réel
- Évaluation de la performance de l’algorithme avec la fonction « Intersection Over Union » et du « Confidence Score
»
Environnement technique : Python, Nltk, Tensorflow, Dlib, Keras, Numpy, Scipy, Pandas, Scikit-Learn, Linux, Git

MAI 2019 – SEPTEMBRE : TALAN
Big Data Engineer & Formateur
Mission 1 : Développement Big Data pour le compte de plusieurs projets, installation et tests de distribution Hadoop,
Enseignement de cours Hadoop et NoSQL en école d'ingénieur (cours magistral +TP)
- Validation technique des codes et réalisation des recettes
- Transfert et archivage des données de Azure vers (Cloudera) et de
- HDFS vers Azure (scripts Python)
- Mise en place et suivi des tests unitaires et de conformité de la solution développée
- Étude comparative des distributions Hadoop : Cloudera, Horthonworks et MapR
- Réalisation des reportings d’avancement des demandes métier sur le périmètre applicatif
- POC : Streaming Kafka-Spark-Scala pour l’intégration et le traitement des données de différents capteurs (RATP)
Mission 2 : Enseignements à l’ESIEA et EISTI
- Cours magistral : Ecosystème Big Data, Distributions Hadoop
- TP : HDFS Hive
- Cours magistral : Base de données Nosql
- TP : Hbase, Elastic Serch, Neo4j
Langages : Python, Spark-Scala
Python : Numpy, Pandas, Scipy, Matplotlib.
Distributions Hadoop & NOSQL : Cloudera, Hortonworks, HDFS, Hbase, Hive, ELK, Mongodb, Cassandra.

SEPTEMBRE 2009 – JUIN 2018 : UNIVERSITÉS PARIS SUD, CERGY PONTOISE, INCM…
Enseignant Chercheur en mathématiques appliquées
Mission :
- Niveau L3M à l’Université de Cergy Pontoise : Méthodes numériques
- Niveau DUT 1 et 2 STID à l’Université Paris Descartes : Analyse, algèbre
- Première année et deuxième année à l’université Paris Sud : Algèbre, Analyse, Statistiques, métrologie
Environnement technique : Fortran, C++

JANVIER 2013 – DÉCEMBRE 2017 : UNIVERSITÉ SORBONNE-PARIS DESCARTES
Doctorant-chercheur
Contexte :
- Enrichissement des bases de données d’images médicales
- Extraction des connaissances à partir des bases de données en présence de valeurs manquantes
Mission : Développeur pour une plate-forme de crowdsourcing
- La découvertes des règles manquantes pour alimenter un système de recommandation en utilisant les
décompositions tensorielles (article référent : Kolda&all).
- Algorithmes de recommandations implémentés en Python et matlab.
- Enrichissement des bases de données d’images médicales par des nouveaux attributs, une problématique
transversale (biologie et fouille des données), en se basant sur du crowdsourcing (recherche participative).
- Convergence de la majorité des crowders (participants) à travers des questions ouvertes ou fermées.
- Le choix de l’entropie comme indicateur de scoring.
- Développement en Python, Matlab – Utilisation de R Visualisation
Environnement fonctionnel : Machine Learning : Clustering, crowdsourcing, décomposition tensorielle
Environnement technique : Python, R, Matlab

JANVIER 2005 - AOUT 2009 : LIMSI-CNRS
Ingénieur recherche et développement
Mission : analyse numérique et dynamique des fluides
- Méthodes numériques pour la résolution des équations aux dérivées partielles
- Méthode des Volumes finis pour la simulation numérique du liquide (incompressible),Méthode différences finies et
éléments finis pour la vapeur (compressible)
- Méthode du front tracking pour le suivi de l’interface liquide vapeur
- Modèle Low Mach pour séparer la pression dynamique et thermique
- Fortran MPI pour la simulation numérique
Environnement technique : Fortran, C++, Calcul parallèle : MPI

Études et formations

COMPETENCES

Big data :
o Spark, Hadoop (Distribution Cloudera et
Hortonworks), Talend-bigdata, Cloud Azure
Langages :
o Python, Scala, SQL, C, C++, JavaScript,
Matlab, R
Python :
o Pandas, Numpy, Sci-kit, Keras, Tensorflow,
Tensorboard, Apache Air flow
Data science :
o Machine Learning, Deep Learning, NLP,
Computer Vision
Apache :
o Hdfs, Hbase, Hive, Flume, Oozie, Kafka
Secteurs d’activité / métier :
o Big Data
o Machine Learning

FORMATION
2019 : Certificat spécialisation analyse des données massives, CNAM
2013-2017 : Doctorat en Science des Données, Université Paris Descartes
2003-2004 : Master Recherche en Mathématiques Appliquées, UPPA
2002-2003 : Maîtrise d’Ingénierie Mathématique, Université Paul Sabatier

LANGUES
o Anglais : professionnel