Chiheb - Data Scientist PYTHON
Ref : 190628K001-
78290 CROISSY SUR SEINE
-
Data Scientist (31 ans)
-
Freelance
OCT 2018 – AVRIL 2019
DATA SCIENTIST & BIGDATA DEV.
SMART TECHNOLOGY
Développement d’un outil de Web Scrapping des profils de consultants
Chargement des données dans une base de données SQL
Environnements : Python3.6, BeautifulSoup, Selenium, MySQL
Développement d’un Workflow d’extraction des tweets en temps réel
Analyse sentimental des tweets
Développement d’une Application de Dashboarding R Shiny
Conteneurisation de l’application avec Docker
Environnements : R, shiny, Python3.6, MongoDB, Docker, DockerHub
Configuration et développement d’un Workflow de Streaming Environnements : Apache Kafka, Docker, DockerHub
Prototypage d’un système de recommandation des achats
Environnements : Python3.6, apriori, redis
MAR 2018 – SEP 2018
DATA SCIENTIST
ADSERVIO
Création d’un système de recommandation des consultants à des missions
Développement d’un système proactif de proposition de formation
Développement d’un modèle de proposition d’un plan de recrutement.
Migration des données de SQL à la base neo4j (orienté document)
avec des interfaces de visualisation en temps réel.
Environnements: Python3.6, plotly Dash, Flask, pandas, nltk, tf-idf, text-mining, LSA, SVD.
JAN 2018 – FEV 2018 JUNIOR DATA SCIENTIST
RATP
Preuves de concept (POC)
Détermination des itinéraires principaux des bus depuis les données de géolocalisation.
Identification des itinéraires d’aller/retour.
Identification des itinéraires déviés.
Détermination des chemins principaux des bus.
Lissage spatio-temporel des itinéraires en cas des captures manquantes.
DEC 2017 – JAN 2018
JUNIOR DATA SCIENTIST
KAGGLE
Prédiction des prix de ventes des produits sur Mercari (entreprise japonaise) en se basant sur la description du produit.
Analyse sentimental des descriptions des produits et études des corrélations avec la cible.
Environnements : Python3.6, pandas, nltk, text-mining, Régression.
JANV 2017 – DEC 2017
JUNIOR DATA SCIENTIST
BARAC
Création d’un modèle de prédiction, RandomForest, des cyber-attaques en se basant sur les métadonnées de l’entête IP enregistrés sur HBase via Apache Phoenix avec une précision de 99.97%.
Détection des anomalies de flux HTTP et HTTPS.
Création d’un modèle de détection des masquarades sur le système avec les chaines de markov.
Déploiement des modèles sur Horton Works (Microsoft Azure) pour des
prédictions en temps réel dans l’environnement : Kafka, Storm, Rsyslog, Phoenix, HBase
Analyse Comportementale des hackers.
Test et maintenance du modèle sur l’architecture HortonWorks
Environnements : Python2.7, pandas, numpy, sklearn, Random Forest,
HortonWorks, Redis, HBase, Apache Kafka, Apache Phoenix, Apache
Storm, Rsyslog, Hidden Markov Chain, Apache Ambari
JUIN 2016 – SEP 2016
JUNIOR DATA ANALYST
TARGA CONSULT
Conception du Data Warehouse
Création d’un ETL à partir des données existantes vers PostgreSQL avec Talend Data Integration.
Création d’un Cube d’analyse sur icCube Server
Réalisation du Tableau de bord sur Tableau Software
Prédiction des chiffres futur de l’Entreprise
Environnements : R , PostgreSQL, Tableau Software, Talend DI, icCube Server
Profil
2.5 ans d’expérience
Développeur Data Science, Big Data,
R, Python, NoSQL, Ecosystème Hadoop, Scala, Spark, ...
Compétences fonctionnelles
- NLP, Text Mining, Sequence Mining.
- Création des systèmes de recommandation.
- Analyse statistiques des données.
- Reporting.
- Conception DataLake.
- Prédiction/Classification/Segmentation/Analyse Factorielle.
- Real-Time Data Engineering.
Compétences techniques
DÉVELOPPEMENT
Python 2.7/3.6 (pandas, numpy, scipy, sklearn, matplotlib, plotly, Dash, Flask, re, networkX)
R (shiny, dplyr, ggplot2, FactoMineR, …)
Java 8, Scala 2
BASE DE DONNÉES
SQL : Oracle, MySQL, Postgresql, MS SQL Server
NoSQL : HBase, Neo4j, Redis, MongoDB, Hive
BIG DATA
Eco-système Hadoop : Apache (Kafka, Storm, Spark, Sqoop, Hive, Pig, Phoenix),
Management : Cloudera Manager, Apache Ambari
HDFS 2
YARN 2
Distributions : Cloudera, Hortonworks
BI
Microsoft BI : SSIS, SSAS, SSRS
PowerBI
Talend
Tableau Software
SAP Crystal Reports
CONTENEURISATION/VIRTUALISATION
Docker
Vmware, VirtualBox
Formations
Certification (en cours) CCA Spark and Hadoop Developer (CCA175)
DIPLÔME D’INGENIEUR | ESPRIT | 2014 – 2018 - BI/Data Science
Diplôme d’ingénieur en informatique spécialité BI/DataScience à l’École supérieure privée d'ingénierie et de technologie.
ÉCOLE PREPARATOIRE MP | IPEIEM |2011- 2014 – Mathématiques – Physique
Concours d’accès aux écoles d’ingénieurs
Langues
Anglais : bon niveau, technique