Loucif - Data Analyst APACHE SPARK
Ref : 200312M001-
95870 BEZONS
-
Data Analyst, Data Scientist (40 ans)
-
Freelance
EXPÉRIENCES PROFESSIONNELLES
Data Analyst
Enedis
Janvier 2019 - Aujourd'hui
Conception et développement d'une solution BI sur une plateforme Big Data pour le calcul
d'indicateurs de suivi d'activité d'Enedis
Analyse des besoins fonctionnels
Participation aux choix d'architecture technico-fonctionnelle
Création d'un socle projet (GIT, Suivi des traitements applicatifs)
Développement d'un moteur de calcul d'indicateurs paramétrable
Développement d'un moteur de contrôle pour vérifier la qualité des flux
Moteur d'ingestion pour ingérer tous types de sources du datalake (streaming/batch,
avro/csv/json), ainsi que transformer/nettoyer les données
Développement d'extractions depuis des bases de données relationnelles vers le datalake
Développement d'un producer Kafka pour transmission d'un flux en temps réel
Développement d'un consumer Kafka pour ingestion d'un flux en temps réel
Pilotage et monitoring des flux
Technos : PySpark, Kafka, Shell, SQL, Sqoop, Hbase, Hive
Data Scientist
RTE
Avril 2018 - Septembre 2018
Développement d'algorithmes de machine learning et training en distribué via sparkML dans
le but de détecter de la rouille à partir d'images de pylônes électriques
Utilisation d'algorithmes de machine learning de façon distribuée
Prétraitements avec Spark
Travail en autonomie
Évaluation des modèles en distribué
Rédaction de compte-rendus d'analyse
Expérimentations sur les réseaux neuronaux (CNN,LSTM)
Technos : PySpark, Scala (SparkML), Cloudera, Python
Data Miner
Télécom Nancy pour myXtramile
Novembre 2017 (une semaine)
Optimisation budgétaire et qualitative de la diffusion d’offres d’emploi pour les campagnes de
recrutement. Sujet ouvert, méthode de résolution choisie en trois étapes : segmentation des
offres d'emploi, détermination des meilleurs canaux de diffusion pour chaque segment et
enfin calcul d'une métrique pour évaluer le coût par clic d'une offre
Force de proposition sur un sujet ouvert
Travail en groupe de 3 sur une semaine intense
Utilisation d'algorithmes de clustering (K-means, HAC, HDBScan)
Prétraitements sur des données textuelles (n-grams, tf-idf,pos_tagger, stemmer)
Développement d'algorithme de calcul du coût par clic
Esprit critique sur le travail réalisé et proposition de pistes d'amélioration
Technos : Python
Data Engineer
Télécom Nancy
Avril 2017 - Septembre 2017
Développement d'un système d'intégration de données biomédicales à partir de sources
hétérogènes (MySQL, Orphadata, HPO, OMIM, SIDER) dans le but de proposer à un utilisateur
de rechercher une maladie ou des symptômes et d'obtenir les traitements associés ainsi que
les effets secondaires.
Analyse des bases hétérogènes
Création d'un mapping entre toutes les sources
Développement d'un algorithme intégrateur suivant le mapping
Optimisation des temps de traitement sur les requêtes (indexation, parallélisation)
Création d'une interface graphique utilisateur
Technos : Java
COMPÉTENCES
Big data : Spark, Kafka, écosystème Hadoop (HDFS, YARN, Sqoop, Hive, Hbase, Pig... )
Plateforme big data : Hortonworks, Cloudera
Langages : Python, Scala, Java, R, SQL, Shell
Gestion de version : Git, Gitlab
Machine Learning : Supervisé (Random Forest, xgboost...), Non supervisé (KNN, K-means...)
Deep Learning : CNN, RNN, LSTM
Méthodologies : Scrum, Agile
FORMATION
2016-2017 : École d'ingénieur informatique - Télécom Nancy
2014-2015 : Classe préparatoire MPSI/MP - Lycée Dupuy de Lôme à Lorient
2013 : Bac S mention très bien