CV APACHE SPARK : les meilleurs freelances identifiés

Les derniers profils Apache Spark connectés

Architecte Solutions & architecte Système

NOISY LE GRAND

REST Enterprise Architect Apache Kafka Apache Spark Apache Hadoop SQL Language Modeling DevOps ArchiMate Python

Disponible

Développeur JAVA

Rueil-Malmaison

Java Angular Spring Boot API RESTful Azure Kafka

Bientôt disponible

Data Scientist Deep Learning

TOULOUSE

Deep Learning Python Microsoft Power BI SQL Tableau IA Générative Excel Apache Spark Google Cloud Platform

Disponible

Data Engineer / Data Analyst

STAINS

SQL Dataviz Data Google Cloud Platform Microsoft BI Azure Google Analytics Databricks Snowflake PySpark

Disponible

Business Analyst Senior, Architecte Fonctionnel SI

BOULOGNE-BILLANCOURT

Scrum Jira Confluence UML BPM BI Java J2EE

Ingénieur Data/Devops

PARIS

Java Scala Google Cloud Platform BigQuery HashiCorp Terraform Apache Spark PySpark SQL Data

Disponible

Data Analyst Microsoft Power BI

ANGOULÊME

Microsoft Power BI Data Excel BI Python SQL SQL Server Big Data Apache Spark Tableau Software

Disponible

Senior Delivery Manager/Delivery Lead/PM

LA GARENNE-COLOMBES

Java Spring SQL TIBCO Big Data Apache Spark Apache Hadoop Amazon AWS

Disponible

Data Engineer PYTHON

MONTSOULT

Python Microsoft Power BI PySpark Snowflake SQL PostgreSQL Big Data Azure Databricks AWS CloudFormation

Disponible

Data Scientist Agile

ÉTAMPES

Python SQL Data Cloud AWS DevOps Agile Jira Scrum Apache Spark PySpark

Bientôt disponible

Je trouve un CV Apache Spark

Vous êtes freelance ?

Sécurisez votre activité grâce au portage salarial !

Mme

Prénom ^*

Nom ^*

Email ^*

Téléphone ^*

Ville ^*

Avez-vous trouvé une mission ? ^*

J'accepte d'être contacté par nos partenaires, experts en portage salarial et j'accepte la politique de confidentialité du site www.freelance-informatique.fr

Résumé des missions de Farouk,
freelance APACHE SPARK résidant dans les Hauts-de-Seine (92)

Chef de projet / Data Engineer
IER
4/2021 -
Contexte : Développement d’un système de monitoring des équipements EMS (Easier Monitoring
System)
o Concevoir et dimensionner la solution (data flow, facteur de duplication, facteur de
tolérance au fautes. . ).
o Concevoir les data modèles (coté équipement et base des données).
o Déployer / Configurer Docker sur l’environnement Prod (chez le client).
o Tirer les images Docker des repo officiel et privé.
o Déployer les images Docker et mettre en place un cluster EMS ( Nginx, Elasticsearch, Kibana
Opensearch, Opensearch dashboard…).
o Configurer les différents contraires pour assurer la bonne réception des données (assurer la
connectivité entre le différentes entité).
o Générer et implémenter des certificats SSL pour sécuriser le flux inter et intra cluster.
o Développer et déployer des pipelines d’ingestion de donnée pour appliquer un ETL avant
l’indexation de la data.
o Construire les tableaux de bord qui traduisent les données indexées en informations.
o Mise en place des protocoles de détection d’erreurs.
o Mise en place d’un système de gestion d’alerte (envoie des notifications par mail, sms,
Slack, Teams. . ).
o Assurer un support N3 à nos clients.
Environnement : Elasticsearch, Kibana, Opensearch, Opensearch Dashboard, Nginx, Lucene, Linux,
Windows

Data Engineer
ASI
10/2020 - 3/2021
Contexte : Migration des données d’un ancien cluster Hadoop 2.6 vers un cluster Hadoop 3.1.
o Développer un script bash qui génère des scripts DDL contenant les schémas des tables Hive
pour la création sur le nouveau cluster Hadoop.
o Parcourir le répertoire des scripts ‘.hql’ , les exécuter en boucle pour la création des table à
la destination en bash.
o Développer un script bash de migration des données autour d’un job Hadoop DistCp.
o Développer un module de fiabilité des données qui couvre plusieurs points de comparaison
entre les données à la source et à la destination (nombre de ligne par table, nombre de
partition par table…) avec Apache Spark (scala).
o Alimenter les comparatifs à Apache Zeppelin pour la mise en évidence des points de
différence.
Environnement : Hadoop, Apache Spark, Bash, SQL, HQL, Scala, Apache Zeppelin

Data Engineer
Intuition Factory
3/2020 - 5/2020
Contexte : Projet interne assurant la suivie des consultants ainsi que leurs timesheets, états
d’avancements, remarques et notes.
o Interroger la base SQL via des procédures stockées pour extraire les informations relatives
aux consultants (Id, journées validées, TJM…)
o Gérer le système de messagerie (Kafka) pour la livraison des données sur Azure.
o Agrégation des données pour l'analyse et l'alimentation des modèle ML avec Apache Spark
Environnement : Azure, Apache Kafka, Apache Spark, C#, .net, SQL

Data Engineer
Amaris
11/2018 - 2/2020
Contexte : Développement de deux moteurs de recherche pour un index Elastic.
o L’Interception de la préférence recherché (nom, profil, école de préférence, années
d’expériences. . .) et le moteur sélectionné pour l’exécution.
o La création d’une requête ElasticSearch avec NEST selon le moteur sélectionné.
Moteur 1 réalise une recherche sémantique (mot à mot).
Moteur 2 réalise une recherche syntaxique avec MLT.
o L’exécution de la requête sur le cluster Elastic.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
o L’envoie des top résultats (les documents XML) à la partie Front avec IIS.
o L’analyse et le nettoyage des XML avec C# et .net pour l’affichage dans des balise CsHtml.

Contexte : Développement d’un pipeline pour migrer les données des bases SQL vers un cluster
ElasticSearch.
o La définition des modèles des données à migrer (un modèle qui décrit un objet candidat).
o La rédaction des procédures stockées qui vont remmener les données en question.
o L’alimentation des modèles par les données adéquates.
o La création des requêtes Elastic qui vont injecter les modèles/Objets dans L’index Elastic.
Le développement des Windows services (.net Core) qui vont exécuter les SP et les requêtes
ELS en permanence.

Contexte : Mise en place d’un pipeline pour enrichir une base SQL et un index Elastic des candidats
avec des informations de géolocalisation.
o La réalisation d’un benchmark entre plusieurs APIs de géolocalisation (cout, performance,
vitesse…).
o La définition du modèle des données qui répond au besoin (structure géoloc sous l’objet
candidat).
o La rédaction de la procédure stockée SQL qui retourne les adresses des candidats.
o L’envoi des adresses à l’API afin de les convertir en objets de géolocalisation détaillés
(JSON).
o Le mapping des objets retournés avec le modèle de donnée défini avec dapper.
o L’enrichissement des bases existantes (SQL et Elastic) via la SP et la requête ELS.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
o Le développement d’un Windows service (.net Core) qui va exécuter la SP et les requêtes
ELS en permanence.

Contexte : Mise en place d’un pipeline pour enrichir une base SQL et un index Elastic des candidats
avec une représentation vectorielle décrivant le contenu.
o Le développement d’une API qui converti un objet candidat en un vecteur (table des réelles)
en C# et .net Standard.
o Le déploiement de l’API sur Azure.
o L’extraction des candidats à partir de la base SQL.
o La création des objets candidats (JSON) avec Entity FrameWork.
o L’envoi des objets JSON à l’API pour la conversion en vecteurs.
o L’insertion des vecteurs dans les objets candidats de base SQL.
o La mise à jour de l’index Elastic pour qu’il soit conforme avec SQL.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
Environnement : ElasticSearch, KIBANA, C#, .net Core, .net Standard, Entity FrameWork, SQL,
CsHtml, Windows service, JSON.

Contexte : Développement d’un moteur de recherche pour un index Elastic.
o L’Interception d’un vecteur recherché (vecteur représentant un candidat).
o La création d’une requête ElasticSearch avec NEST qui prend en paramètre le vecteur
(décrivant le candidat idéal à retourner) et qui rend les candidats ayant le vecteur les plus
proches.
o L’exécution de la requête sur le cluster Elastic.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
o L’envoie des top résultats (les documents XML) à la partie Front avec IIS.
o L’analyse et le nettoyage des XML avec C# et .net pour l’affichage dans des balise CsHtml.
Environnement : ElasticSearch, KIBANA, C#, .net, SQL, CsHtml, XML

Data Engineer | Business&Decision

2/2018 - 6/2018
Contexte : Développement et mise en place d’une plateforme d’analyse des CDR d’un opérateur
téléphonique pour le marketing ciblé.
o Collection des CDR brutes via une API avec Scala.
o Sauvegarde temporaire des données sur un topic Kafka.
o Digestion des données avec Spark pour le cleaning.
o Pousser la data vers un autre topic Kafka.
o Mise en place d’une architecture LAMBDA (Spark pour la partie batch et Spark Streaming
pour le mode real time).
o Analyser les données avec des jobs Spark et segmenter les lignes par abonné et puis les
abonnés par somme de consommation total)
o Injecter les données agrégées dans un topic Kafka.
o Digestion des données et sauvegarde finale sur Cassandra et temporaire sur Hadoop HDFS
(les réserver pour le mode batch).
o Visualiser les abonnées par segment de consommation sur Zeppelin.
o Développement d’une application Maven pour l’automatisation des jobs.
Environnement : Apache Kafka, Apache Spark, Apache Spark Streaming, Hadoop, HDFS, Apache
Zeppelin, Scala, Maven.

Voir le profil complet de ce freelance

Au sujet de APACHE SPARK

Domaines d'expertise liés à Apache Spark

Expertises rattachées à APACHE SPARK

Apache Hadoop Scala Python Java Apache Kafka Big Data SQL Apache Hive HDFS Cloudera Azure Data Cloud AWS Google Cloud Platform

Fiches carrières APACHE SPARK associées

Les actualités du Freelance

Je dépose mon CV Je dépose une mission

Les derniers profils Apache Spark connectés

Architecte Solutions & architecte Système

Développeur JAVA

Data Scientist Deep Learning

Data Engineer / Data Analyst

Business Analyst Senior, Architecte Fonctionnel SI

Ingénieur Data/Devops

Data Analyst Microsoft Power BI

Senior Delivery Manager/Delivery Lead/PM

Data Engineer PYTHON

Data Scientist Agile

Résumé des missions de Farouk, freelance APACHE SPARK résidant dans les Hauts-de-Seine (92)

Résumé des missions de Farouk,
freelance APACHE SPARK résidant dans les Hauts-de-Seine (92)