Sma - Data Analyst SQL SERVER
Ref : 200928K001-
92400 PARIS
-
Data Analyst, Data Scientist, Chef de projet (38 ans)
-
Freelance
RESUMES DES EXPERIENCES PROFESSIONNELLES
SAINT-GOBAIN – SGGD, PARIS
Architect /Consultant Big Data
Septembre 2018 à Aujourd’hui (1 an et 2 mois)
Mise en place de deux projets Big data : SmartPricing et Churn
Projet 1 : SmartPricing
- Mise en place d’une architecture Big Data
- Analyse du besoin et étude de l’existant
- Participation à la mise en place de l’architecture logicielle Big Data du projet
(benchmarking)
- Analyse et prétraitement sur les données (Hive, Python, PySpark)
- Modélisation Machine Learning avec XGboost Python et d’autres modèles de régression
- Mise en production du projet sur Cloudera
o Conception de l’API: Swagger, JSON
o Développement de l’application de prédiction et recommandation des prix
(Django, Django Rest Framework, GIT, Jenkins)
Projet 2 : Churn client
- Analyse statistique des données
- Prétraitement des données (Hive, Python, PySpark)
- Modélisation Machine Learning avec Random forest
- Mise en production du projet sur cloudera
o réécriture des scripts sur CDSW avec PySpark
o planification de batch (CDSW, scheduling)
Environnement technique : Cloudera, PySpark, Hbase, Hive, Jenkins, Docker, Git
Hadoop – Spark (pySpark Spark ML), Apache Drill
IVRY AURIS HOTELS MANAGEMENT, DUBAI
Architect Big Data
Avril 2017 – Aout 2018 (1an et 4 mois)
- Mise en place d’une architecture Big Data pour la branche RC
- Collecte, et exécution d'analyses de données complexes à l'appui de la gestion hôtelière en utilisant les
BI tools, les sciences de données et les Big Data
- Participer également à la présentation des résultats statistiques aux collègues de travail et aux cadres
supérieurs
- Responsable de l’identification des sources des données, le chargement et le stockage des données
sous HDFS
- Manipulation, nettoyage et traitement des données en utilisant Hadoop/Spark selon le besoin.
- La contribution à l’élaboration d’un système de recommandation en utilisant Pythonet l’apprentissage
automatique pour maximiser le profit
- Développer des bases de données analytiques de données à partir de données financières complexes.
Effectuer des vérifications quotidiennes du système
- Visualisation des données et génération des rapports en utilisation Tableau Desktop
- Saisie de données, audit de données, création de rapports de données et surveillance de toutes les
données pour plus de précision
- Effectuer des traitements de données et des techniques statistiques spécifiques
- Déployer les applications sur AWS dans un contexte devops
- Développement d’un tableau de bord pour la gestion de comptabilité des groupes d’Hôtels
(********:8080/FinancialDashboard/)
- Développement d’application mobile Ios et Android (Auris Hotels) pour la réservation
Environnement technique : Hadoop, Spark, Python, Java, Objective C, Android Studio, Primefaces,
JSF, Mysql, Tableau Desktop Pentaho, Power BI, Python
LABORATOIRE LIRIS UNIVERSITÉ CLAUDE BERNARD, LYON, FRANCE
Août 2014 à Mars 2017 (2 ans et 8 mois)
Consultant Big Data
- Modélisation et développement d’un moteur d’exécution d’une composition de services qui
soit sensible aux contraintes floues formulées par les utilisateurs
- Proposition des mécanismes de calcul des top-k des résultats de compositions de services qui
tiennent compte de l’incertitude (préférences floues et données probabilistes)
- Test et évaluation des performances des modules sur des benchmarks issues du Web
- Profilage à partir du texte pour l’identification des faux profils : Détection de l’âge et du genre
à partir du texte (Ngrams-model, CNN-1D, convolutional LSTM, Ensembling models)
- Prédiction de la personnalité à partir du texte (Big five, MBTI, word embeddings,
convolutional LSTM)
- Détection d’insultes dans les commentaires (Ngrams-model, LSTM, Hierarchical Attention
Network)
- Identification des prédateurs sexuels à partir de conversations sur les médias sociaux (time
features extraction, undersampling and oversampling algorithms, Boosting and bagging)
Environnement technique : PySpark, Python, Hbase, Hadoop Cloudera
POINTS FORTS
Triple compétence en gestion Big data science, Data science et BI
Maîtrise des problématiques de Data Management et de la qualité statistique du patrimoine des données
Expertise en architecture Big data et Data Science : Machine Learning, Text Mining, méthodologie
d’analyse et de modélisation prédictive et nouvelles approches algorithmes appliquées au contexte Big
data
Expertise en langage de programmation Python/ PySpark et de l’environnement Devops (Docker,
Nginx, Jenkins)
Expérience solide en mise en production des projets data dans des environnements Big Data
Réalisation de plusieurs projets Machine Learning et BI chez Saint Gobain, Auris etc
Maîtrise de la méthodologie d’analyse et de modélisation prédictive problématiques data management et
de la qualité statistique données
Très bonne connaissance de l'écosystème Big Data (Hadoop, HDFS, HIVE, HBASE, HDP 3.1)
Formation solide en informatique PhD en informatique Université Claude Bernard Lyon 1- CNRS
BIG DATA
- Distribution: Cloudera, Hortonworks, HdInsight, Splunk, MapR, Big Insight: (Hadoop, Spark)
- Langage d’interrogation : Hive, Pig, Impala, Jaql, Big sql
- ETL : Sqoop, Flume, Talend, Informatica (Oozie : scheduler)
- Analyse de données : Python, R, Big R, R-Revolution, Spss Modeler, Hive
- Machine learning : SparkML, R, Python scikit learn, Mahout, Recommendation System, Java library
- TextMining : Gate, Stanford NLP, Lucene-Solar, Treetager, NooJ
- NoSql : MongoDB, Elasticsearch, Apache Cassandra, Appache Drill
- Gestion de projet : méthode Agile
- BI : BI Descktop, Clickview, ableau software, spotfire
DATA MINING
- Analyse prédictive et techniques data mining, maintenance prédictive, prédiction des prix
- Segmentation (kmeans, knn, Hierarchical classification, kmod, Kohonen,…)
- Forecast (simulation methods, decision trees, SVM, logistic regression …)
- Modélisation des processus complexes et implémentation des algorithmes pour des problèmes
complexes (NP-complet, Satisfaction des contraintes) en utilisant des outils comme (SparkML,
Mahout, Scikit Learn, Java etc.)
MODELISATION & DATA MANAGEMENT
- Modélisation : Conception et mise en œuvre des bases de données, construction des DataMart,
DataLab et DataLake
- SGBD & data management: (SQL, PL/SQL, SQLOLAP) (Teradata, MySql, Sql Server, Oracle,
Access, Excel / VBA), (XML, RDF, OWL).
- Web : JSON, XML, XSL-XSLT, RDF, OWL, API Tweeter & FB, JavaScript
- Modélisation des données non structurées et semi-structurées (analyse de sentiments)
- Open Data : identification, collecte et croisement avec des données internes (expert)
- Données sociales : collecte et analyse des données à partir Tweeter, Facebook, TripAdvisor et d'autres
sources en utilisant des APIs spécifiques.
- Automatisation et industrialisation des processus
LANGAGES & LOGICIELS
- Analyse de données : R, Python, TXM, Big R, R-Revolution, Modeler SPSS, Hive
- SGBD : Teradata, Oracle, MySql, Sql Server
- Langage de programmation : Java Core, Perl, C/C++, Prolog, Bash, php, jsp
- Technologies Java : Eclipse, JVM, Jdom Jbeans, Hsqldb, Servlet, JDBC, Madkit
- Outils TALN : Gate, NooJ, Unitex, Treetager, Stanford parser, Lucene etc
- Intelligence Artificielle : Weka, Prolog, MathLab, SMA (Madkit, Jad).
- Web : PHP5, XHTML, CSS, JavaScript, NVU, Web 2.0, XML-TEI
- Serveur Web : Apache, IIS
- Manipulation de données : SQL, Vba, Access, Teradata
- Langage de modélisation : UML, AUML
- Génie logiciel: Rational Rose, Power Designer. Merise, Unified processes, V process
TECHNOLOGIES
- BIG DATA: Cloudera, Hadoop (HDFS, Map reduce), Kafka, Spark, Nifi, Ambari, Zookeeper, hive,
Yarn
- Frameworks: Spark, , Pandas, NumPy, Matplotlib, Scrapy
- Analyse de données : Python, Spark, Scala, TXM, Modeler SPSS
- Intelligence Artificielle : Weka, Prolog,MatLab
- Langages de programmation : Java/JEE, C, Pascal, Prolog, Objective C, Swift,Python
- DBMS : Oracle (8i, 9i, 10g), MySQL, Microsoft SQLServer, (MongoDb, Cassandra)
- Analyse de données : Python, Scala, Java, Java EE, Spring boot, C, C++, PHP, Nodejs, HTML5,
CSS3, JavaScript, JQuery, Angular2, Type Script, MATLAB, Design pattern GOF, Scripting
- BI : Tableau Software, Power BI, Pentaho, Power BI Tableau, SQL
- OS : Linux, Windows,Mac
- Technologies Java : Eclipse, Netbeans, JBuilder, Servlet,JDBC, Jdom
CERTIFICATIONS
- Janvier 2016: formation en “Python for Data Science and Machine Learning à Innosoft
Gulf Dubai
- May 2016: formation en ligne sur Udemy en “Big Data with Apache Spark and Python “
- Septembre 2016: certificat de qualification professionnelle en Big Data au centre Global
Engineering & Technology Center Tunis
ETUDES & DIPLOMES
PhD en Informatique - Septembre 2015 – Université Claude Bernard Lyon 1- CNRS. (Soutenance
validée avec la mention très Honorable le 24 Septembre2015)
Master 1 & 2 en informatique– Intelligence Artificielle - Avril 2010, Université de Tunis Institut
Supérieur de Gestion (Mention: Très bien)
LANGUES
- Anglais : Courant
- Français, Arabe : Bilingue