CV/Mission de Consultant PySpark freelance

Je dépose une mission gratuitement
Je dépose mon CV
Vous êtes freelance ?
Sécurisez votre activité grâce au portage salarial !

Exemple de missions de Rabii,
Consultant PySpark habitant les Yvelines (78)

EXPERCIENCES PROFESSIONNELLES

INETUM (GFI) – Paris : [May 2021 a Présent]

Tech Lead Data GCP
Orange
Since October 2021

Technologies:
BigQuery, Cloud composer, Airflow, Docker, Firestore, Data Flow, Cloud Run,etc…
Python, ksh, SQL
Agile, CI/CD, Git

Ensure the design, development, and delivery of migration solution from Teradata to GCP.
solving difficult and complex technical problems.
Development f data pipelines.
Creation of DAGs for tasks orchestration.
translate ksh scripts to python.
translate Teradata SQL to BigQuery SQL.
Support of the Data Engineer teams on code reviews.
Mentor Engineers to develop their technical skills.

Consultant Data Analytics
MACIF
May 2021 to October 2021
Technologies :
Pyspark, Python
Spark Streaming, Nifi, MongoDB, ML.
Study and processing of complex data.
Development of data flows in pyspark.
Migration from NIFI to Spark streaming
Proposal for a new use case in machine learning.
Optimization of existing predictive models
Support for data profiles.

Bluescale - PARIS: [July 2018 to Present]

Data Scientist Consultant
TechnipFMC
January 2020 to April 2020

Technologies:
Deep learning: Neural Network, TensorFlow
Linear regression, Random Forest, variable selection, multiple time series.
Python: pandas, Scikit-learn, SciPy, R.
ggplot2

PROJECT: Development of predictive models to estimate the final cost of several scopes: Engineering, Procurement, Installation and Construction in TechnipFMC Projects.
Needs analysis, understand the job of project controllers and how thy estimate the final expenditure for each scope of a project.
Exploration and analysis of 300 variables: Behavior, relationship and impact through visualizations with R’s library.
Understand the problems of project controllers and formulate the objective of the models to be developed.
Data analysis and exploration: identification of missing data and their causes according to the nature of the variables.
Development of Python and R scripts to detect outliers and their corrections.
Development of scripts for missing data handling according to several strategies studied with project controllers.
Study of variables importance using random forest algorithms.
Development of several new 'Features' (predictor variables) using data transformations and normalizations.
Development of a predictive model using neural network with TensorFlow.
Development of multiple linear regression models to help project controllers to correct their estimates on the one hand, and to forecast and anticipate actions on the other.
Development of Forecast models using multiple time series algorithms.
Testing and validation of the models using cross-validation by project.
Writing of deliverables: python and R codes, documentation on methods and industrialization of models.

Tech Lead Data Science
Bluescale (Internal project)
August 2019 to December 2019

Technologies:
Linear regression, Random Forest, k-mode, variable selection, multiple time series.
Python: pandas, Scikit-learn, SciPy.
Microsoft Azure, Spark, Notebooks data.
Power BI, ggplot2, mapview, leaflet, tmap.
PROJECT: Predictive analyses of the availability rate of Belib' recharging stations for electric vehicles.
Study and design the technical solution in Cloud Azure.
Data collection, variables selection and data sources identification.
New Features extraction and datasets construction.
Data visualization: creation of the Dashboard via Power BI. Simulation of the availability and occupancy rates of the recharging sockets on the Paris map using the ggplot2, mapview and Leaflet library.
Design and development of predictive models using Machine Learning algorithms:
Rate availability prediction of 268 charging stations using multiple time series.
Clustering of similar stations using the k-mode and k-means algorithm.
Development of a linear regression model to estimate recharge occupancy times.
Anomalies detection through classification using the Random Forest algorithm.
Testing and validation, drafting of documentation.
Support and coaching of junior ML developers.

Big Data Consultant
Orange (Customer)
July 2018 to August 2019

Technologies:
Hortonworks, Spark, Kafka, Hive, HBase, Elasticsearch, Kafka, HBase, Oozie Knox, Grafana.
Python, Scala, java, Script Shell, R
GIT, SVN.
Multiple linear regression, Random Forest, time series
PROJECT 1: Performance test of using machine learning in big data environment
Participation in the design of the various test modules.
Development of the module for testing Machine Learning algorithms in Scala and pyspark using Spark's MLlib library.
Data processing and ingestion from Kafka to Elasticsearch indexes.
Creation of new projects environment in Hive/HBase: access, creation of tables, execution of HQL queries.
Deployment of test use case in Prod and preprod environments.
Drafting of documentation.

PROJECT 2: " Dispatcher Elasticsearch " Development of a Knox Dispatcher
for connecting Grafana to Elasticsearch in multisearch mode.
Study and investigation of data connection between the Grafana and Elasticsearch.
Development of a new version of Knox's Elasticsearch Dispatcher Class to support multisearch queries from Grafana to Elasticsearch.
Deployment of the patch in big data environments.
Drafting of manual for installing the Dispatcher Elasticsearch patch

PROJECT 3: Support of data scientists and Big data developers.
Study and implementation of new tools in Big Data clusters according to the needs expressed by the Data Scientist teams and Big Data developers.
Analysis and optimization of Hive queries, Spark scripts, Kafka flow, Oozie workflow.
Support for Data Engineers/Data Scientists in the data processing and model design using Machines Learning.
Drafting of technical documents for studies/reports.

BLUESCALE – PARIS : [JUILLET 2018 A PRESENT]
Recherche & Développement
Thèse de doctorat (ICT Indicator Assessment)
01/05/2020 à présent
• Rédaction et publication de trois articles scientifiques :
o Article 1 : nouveau système de pondération des indicateurs
composites basé sur la mesure d’importance des variables par
l’algorithme de « forêts aléatoires »
o Construction d’un indicateur composite basé sur un modèle DEA
multiplicatif et multicouche DEA-MM : Une étude de cas sur l'indice
de l'économie et de la société numériques (DESI)
o Mesure de l’efficacité de la e-stratégie nationale via le modèle DEAMM
• Rédaction du rapport de thèse de doctorat

Consultant Data Scientist
TechnipFMC (Client)
26/01/2020 à 15/04/2020
Technologies :
− Régression linéaire, Random Forest,
sélection des variables, séries
chronologiques multiples.,
− Python: pandas, Scikit-learn, SciPy, R.
− ggplot2
PROJET : Etude et développement de plusieurs modèles prédictifs pour estimer
les dépenses finales de l’ingénieries, des achats, les coûts d’installation et de
construction des Projets de TechnipFMC.
▪ Etude du besoin, comprendre le métier des contrôleurs des projets et
comment estiment les dépenses finales de chaque scope d’un projet.
▪ Etude et exploration de 300 variables : Comportement, relation et impact
à l’aide des visualisations en utilisant la librairies ggplot2 de R.
▪ Comprendre la problématique des contrôleurs des projets et formulation
de l’objective des modèles à élaborer.
▪ Analyse et exploration des données : identification des données
manquantes et leurs causes selon la nature des variables.
▪ Développement des scriptes Python et R pour détecter les données
aberrantes et leurs corrections.
▪ Développement des scripts pour traitement des données manquantes
selon plusieurs stratégies étudiés avec les contrôleurs des projets.
▪ Etude des importances des variables par rapport la variable de sortie en
utilisant les algorithmes des forêts aléatoires.
▪ Développement de plusieurs nouvelles ‘Features’ (variables prédicteurs) à
l’aides des transformations et normalisations des données.
▪ Développement des modèles de régression linéaire multiple pour aider les
contrôleurs des projets de corriger leurs estimations d’une part, et de
prévoir et anticiper des actions d’autre part.
▪ Développement des modèles de Forecast en utilisant les algorithmes des
séries chroniques multiples.
▪ Test et validation des modèles sont effectuées par la méthode des tests
croisés par projet.
▪ Rédaction des livrables : codes en python et R, documentation sur les
méthodes et l’industrialisation des modèles.

Tech Lead Data Science
Bluescale (Projet interne)
Août 2019 à Décembre 2019
Technologies :
− Régression linéaire, Random Forest, kmode, sélection des variables, séries
chronologiques multiples.
− Python: pandas, Scikit-learn, Scipy.
− Microsoft Azure, Spark, Notebooks
data.
− Power BI, ggplot2, mapview, leaflet,
tmap.
PROJET : Analyses Prédictives du taux de disponibilité des stations Belib' de
recharge des véhicules électriques.
▪ Etude et conception de la solution technique de bout-en bout dans le
Cloud Azure.
▪ Collecte de données, Sélection des variables et identification des sources
de données.
▪ Extraction des nouvelles caractéristiques et construction des nouveaux
jeux de données.
▪ Data visualisation : création du Dashboard via Power BI. Simulation des
taux de disponibilité et d'occupation des prises de recharge sur la carte de
Paris en utilisant la librairie ggplot2, mapview et Leaflet.
▪ Conception et développement des modèles prédictifs en utilisant les
algorithmes de Machine Learning :
− Prédiction du taux de disponibilité de 268 bornes de recharge en
utilisant des séries chronologiques multiples.
− Regroupement des bornes similaires en utilisant l'algorithme kmode de Clustering.
− Développement d'un modèle de rég...

Voir le profil complet de ce freelance

Profils similaires parfois recherchés

CV Consultant PySpark, Missions Consultant PySpark, Consultant PySpark freelance

Les nouvelles missions de Consultant PySpark

Machine Learning Engineer

PYTHON PYSPARK
ASAP
79 - Niort
3 mois
Voir la mission

DATA ENGINEER

SCALA SQL PYSPARK JAVA
ASAP
69 - LYON
3 mois
Voir la mission

Data Analyst POWER BI Junior

Microsoft Power BI
ASAP
94 - Charenton le Pont
6 mois
Voir la mission

TechLead PySpark

PYSPARK APACHE HIVE CI/CD
ASAP
93 - Montreuil
3 mois
Voir la mission

Lead Dev Data Science

PYTHON JAVA PYSPARK JAVASCRIPT
ASAP
79 - Niort
3 mois
Voir la mission

Data Engineer JAVA / SPARK / SCALA

JAVA APACHE SPARK SCALA APACHE HADOOP
ASAP
75 - Paris
6 mois
Voir la mission

Consultant PYSPARK

PYSPARK
ASAP
94 - Charenton le Pont
12 mois
Voir la mission

Consultant Big Data

APACHE SPARK APACHE HIVE PYTHON HDFS
ASAP
31 - Toulouse
3 mois
Voir la mission

Consultant PYSPARK

ASAP
75013 - PARIS
7 mois
Voir la mission

Data Analyst

DATA PYTHON Jupyter APACHE SPARK
ASAP
Niort
3 mois
Voir la mission
Je trouve ma mission

Les profils de Consultant PySpark ont postulé à :

Développeur Big Data / Data Engineer H/F

DATA PYTHON APACHE HADOOP SCALA APACHE SPARK
ASAP
Paris
36 mois
Voir la mission

Consultant Formateur

BI BIG DATA APACHE SPARK Microsoft Power BI BI MICROSOFT
ASAP
Télétravail
5 jours ouvrés
Voir la mission
Je trouve ma mission

Les derniers CV de Consultant PySpark disponibles

CV Data Scientist python
Abdelkrim

Data Scientist python

  • CHANTELOUP-LES-VIGNES
PYTHON Jupyter OPENCV GITLAB MONGODB VISUAL STUDIO DOCKER APACHE SPARK SQL AZURE
CV Data Analyst SQL
Amine

Data Analyst SQL

  • PARIS
SQL PYTHON DATA APACHE SPARK TALEND
CV Développeur big data - data engineer
Shahul

Développeur big data - data engineer

  • STAINS
PL SQL MCO JAVA SQL JENKINS APACHE HADOOP APACHE HIVE APACHE SPARK DOCKER PYTHON
CV Data Engineer
Eliass

Data Engineer

  • TOULOUSE
PYTHON Snowflake SQL PYSPARK TABLEAU SOFTWARE Qlik Sense JAVA
Bientôt disponible
CV Ingénieur de développement SAS
Abdelhak

Ingénieur de développement SAS

  • BEZONS
SAS
Bientôt disponible
CV Ingénieur IA
Naël

Ingénieur IA

  • NEUILLY-PLAISANCE
PYTHON SQL AGILE LINUX WINDOWS Data science
Disponible
CV Machine Learning Engineer / Développeur Python
Jean

Machine Learning Engineer / Développeur Python

  • MONTIGNY-LE-BRETONNEUX
PYTHON Data science SQL
Disponible
CV Data Scientist PYTHON
Farid

Data Scientist PYTHON

  • PARIS
PYTHON Dataiku SQL Data science DATAMART DATAWAREHOUSE Google Cloud Platform PYSPARK BIG DATA SCALA
Disponible
CV Consultant Google Cloud Platform
Hamid

Consultant Google Cloud Platform

  • NANTERRE
SQL Google Cloud Platform PYTHON PYSPARK
Disponible
CV Data engineer/Data analyst
Ulrich

Data engineer/Data analyst

  • PARIS
SQL BUSINESS OBJECTS PYTHON PYSPARK Cloud AWS Qlik Sense
Disponible
Je trouve mon freelance