Abdelkader - Data Scientist PYTHON
Ref : 200308A001-
59220 DENAIN
-
Data Scientist (26 ans)
-
Totalement mobile
-
Bientôt freelance
PROFESSIONAL EXPERIENCES
Oct. 2021 – Now
Lille, France
Data Engineer – Data Scientist
Pratice Data, Cellule Data Analytics
[GCP] Supervision des performances de monétisation d’emplacements publicitaires – Ecommerce
⁻ Collecte de données depuis plusieurs API Rest (Outbrain, Newrelic, Google Ad Manager, ATinternet), et d’une base de données AWS S3 avec boto3 (SDK Python)
⁻ Ingestion des données dans le datalake Google Cloud Storage et automatisation des flux de données avec Dataprep
⁻ Automatisation des scripts de traitements de données en Python avec des jobs CRON sur une VM (Google Compute Engine) et des fonctions Google Cloud
⁻ Monitoring et alerting des flux avec Google Cloud Monitoring [Azure] Déploiement d’une Data Warehouse - Comptabilité
⁻ Création d’un datalake Datalake Storage Gen2, et d’une base de données SQL Serverless via Synapse
⁻ Développement de flux d’integration et de traitement de la données via des pipelines Synapse
⁻ Conception de pipeline CI/CD via Azure Devops
⁻ Rédaction des spécifications fonctionnelles des développements et flux de données sous Confluence
Cloud:
⁻ GCP (Cloud Storage, Dataprep, BigQuery, Compute Engine, Cloud Monitoring, Cloud Functions)
⁻ Azure (Synapse Analytics, Datalake storage, Azure Devops, Azure function) et AWS S3
Gestion de projet: Agile avec les outils Jira, et Confluence
Mars 2021 – Août 2021
Paris, France
Ingénieur Machine Learning
Generali Vie, DSI, Innovation and Cognitive Solutions
Surpaiement des prestations de dossiers maladies (Prévoyance Collective)
- Etude des déperditions en collaboration avec le cabinet McKinsey : analyse des causes racines et chiffrage
- Développement d’un outil de scoring (PySpark et Python) pour détecter automatiquement les déperditions
- Création de pipelines de traitement de données de plusieurs sources (base Oracle, Hadoop et Datamart) dans un environnement Cloudera
- Analyse de la qualité des données (couverture et données manquantes) pour l’intégration de nouvelles sources de données dans un système d’aide à la décision (application métier)
Projet de détection de fraude interne et externe
- Framework de détection de fraude (interface visuel Linkurious) pour investigation sur la fraude
- Création de pipeline de données avec des jobs Dataiku (PySpark et Python) à partir de tables Hive
- Ingestion des données d’Hadoop vers un serveur Neo4j avec des scripts Unix (ordonnanceur Dollar Universe et stream Kafka)
Environnement : Python (Numpy, Scikit learn, Pandas), PySpark, Dataiku, Cloudera (Hadoop), Hue, Hive, Impala, Oracle, SQL, Neo4j, Unix, Kafka, Git, Gitlab
Mar 2020 to now
Business Intelligence Internship – Data Visualization at Fordaq (Bucharest)
• As a beginning of internship, I am mainly working on the first step of getting a view of data from MS SQL database with TABLEAU. The next step of my internship will be to find patterns and inference rules in order to detect useful information for business perspectives.
Sept. 2020 – Fev. 2021
Bucarest, Roumanie
Machine Learning Data Associate
Amazon, Alexa Data Services
• Optimisation des modèles de reconnaissance de la parole et de part-of-speech tagging à partir de plusieurs algorithmes
: SGD, Adam, Adagrad, Adadelta et RMSProp
• Développement d’un pipeline de données ETL et de déploiement de scripts dans AWS grâce à Pyspark, Kafka, EC2,
Amazon S3, AWS Lambda et Jenkins
• Assistance dans la transcription et annotation des données audio d’utilisateurs francophones
Environnement : AWS, Pyspark, Kafka, EC2, Amazon S3, AWS Lambda, Jenkins
Mars 2020 – Juin 2020
Bucarest, Roumanie
Data scientist
Fordaq, département IT
• Business Transformation : Benchmark de solution technologiques (Business Intelligence/Analytics) pour monitorer et évaluer les ventes de souscription d’abonnement Fordaq
• Préparation de dataset à partir de base de données MSSQL (connexion de la base de données grâce à sqlite3 à un environnement de programmation Python)
• Analyse de sentiment des messages du chat Fordaq avec des modèles SVMs, Random Forests, et Naive Bayes
Environnement : Python (sqlite3, Numpy, Sci-kit, Pandas), Tableau, MSSQ
Sept 2018 to Jan 2019
Internship at LEGRAND France – Statistical Analysis to reduce the waste of stored products
• I extracted data from MS SQL and Access databases
• I builded a statistical model to increase productivity and reduce the quantity of stock in the stored products
• I worked mainly with TABLEAU for data representation and to approve the model and methods
EDUCATION
2019 - 2021 Master of Science in Artificial Intelligence, Politehnica University of Bucharest
• Modules studied include : Data Mining, Computer Vision, Knowledge Representation
Reasoning, Multi-agent Systems, Natural Language Processing, Symbolic and Statistical
Learning
• Research Thesis : « Multiple-encoder model for SQL generation from text”. I am working on a sequence-to-sequence (seq2seq) model with Keras.
• Face detection on MATLAB using Computer Vision ToolBox library
• Prediction problem’s in Python using sklearn, scipy, numpy, pandas
• Market Basket Analysis using apyori library from Python using a French Retail Store dataset
2017 - 2021 Fifth year in Engineering Schoool - Informatics and Production System at the INSA Hauts-deFrance (former ENSIAME) in Valenciennes (North of France)
• Programming languages : C, C++, Java
CERTIFICATIONS
Azure :
Azure Data Fundamentals DP-900
Kaggle :
Pandas
Python
Intro to SQL
HackerRank :
Python (Basic)
Problem Solving (Basic)
SQL (Intermediate)
SQL (Basic)
LANGUAGES
French – Mother tongue
English – B2 (CECRL)
Spanish – B1 (CECRL)
COMPETENCES
Langue: Français (natif), Anglais (avancé – TOEIC 825/990), Espagnol (débutant)
Programmation: Python, Docker, C/C++, SQL, Git, GitLab, CI/CD, Unix
Librairie : Pandas, Numpy, Pyspark, Pytorch, Tensorflow, Keras
Base de données: MySQL, MSSQL, Oracle, Neo4j
Frameworks Big Data: Cloudera (Hadoop), Spark, Hive, Impala, Kafka, Databricks
Frameworks: Flask, Kedro, Linkurious