CV Apache Spark : Trouvez votre intervenant freelance

Je dépose une mission gratuitement
Je dépose mon CV

Les derniers profils Apache Spark connectés

CV Développeur PHP
Zahir

Développeur PHP

  • SEMÉCOURT
Java J2EE DHTML LAN C SQL Server MySQL SQL Oracle Angular
Disponible
CV Architecte  Big Data / Expert Cloud AWS/GCP/Azure
Mohamed

Architecte Big Data / Expert Cloud AWS/GCP/Azure

  • PALAISEAU
Java Apache Hadoop Data Scala Apache Spark Apache Kafka Big Data Amazon Web Services Python Azure
Disponible
CV Data Engineer
Saad

Data Engineer

  • CHAMPIGNY-SUR-MARNE
Python SQL PySpark Cloud AWS Google Cloud Platform Airflow Docker Git CI/CD Apache Kafka
Disponible
CV Architecte Applicatif
Evariste

Architecte Applicatif

  • PARIS
Microservices API RESTful Spring Boot Java Identity and Access Management Keycloak GitLab Docker Cloud AWS Oracle
Bientôt disponible
CV Data Engineer
Atsé

Data Engineer

  • ANNEVILLE-AMBOURVILLE
Python SQL Apache Spark PySpark Apache Kafka Databricks Microsoft Power BI Amazon AWS Azure Google Cloud Platform
Disponible
CV Data Scientist Deep Learning
Tekam Simo

Data Scientist Deep Learning

  • TOULOUSE
Deep Learning Python Microsoft Power BI SQL Tableau IA Générative Excel Apache Spark Google Cloud Platform
Disponible
CV Chef de projet IT transverse
Anasse

Chef de projet IT transverse

  • IVRY-SUR-SEINE
Agile Amazon AWS Cloud AWS Google Apps MOBILE DEVICE MANAGEMENT Azure
Disponible
CV Data Engineer Azure/AWS
Ayoub

Data Engineer Azure/AWS

  • BEZONS
Apache Spark Transact SQL Python Azure Data Factory Azure AWS Lambda Databricks PySpark Cloud AWS DevOps
Disponible
CV Ingénieur Data/Devops
Marouane

Ingénieur Data/Devops

  • PARIS
Java Scala Google Cloud Platform BigQuery HashiCorp Terraform Apache Spark PySpark SQL Data
CV Service delivery manager
Karima

Service delivery manager

  • VILLEJUIF
SharePoint Windows Unix SQL Server BI Oracle Java Linux Access Informatica
Disponible
Je trouve un CV Apache Spark
Vous êtes freelance ?
Sécurisez votre activité grâce au portage salarial !

Aperçu d'expériences de Farouk,
freelance APACHE SPARK résidant dans les Hauts-de-Seine (92)

Chef de projet / Data Engineer
IER
4/2021 -
Contexte : Développement d’un système de monitoring des équipements EMS (Easier Monitoring
System)
o Concevoir et dimensionner la solution (data flow, facteur de duplication, facteur de
tolérance au fautes. . ).
o Concevoir les data modèles (coté équipement et base des données).
o Déployer / Configurer Docker sur l’environnement Prod (chez le client).
o Tirer les images Docker des repo officiel et privé.
o Déployer les images Docker et mettre en place un cluster EMS ( Nginx, Elasticsearch, Kibana
Opensearch, Opensearch dashboard…).
o Configurer les différents contraires pour assurer la bonne réception des données (assurer la
connectivité entre le différentes entité).
o Générer et implémenter des certificats SSL pour sécuriser le flux inter et intra cluster.
o Développer et déployer des pipelines d’ingestion de donnée pour appliquer un ETL avant
l’indexation de la data.
o Construire les tableaux de bord qui traduisent les données indexées en informations.
o Mise en place des protocoles de détection d’erreurs.
o Mise en place d’un système de gestion d’alerte (envoie des notifications par mail, sms,
Slack, Teams. . ).
o Assurer un support N3 à nos clients.
Environnement : Elasticsearch, Kibana, Opensearch, Opensearch Dashboard, Nginx, Lucene, Linux,
Windows

Data Engineer
ASI
10/2020 - 3/2021
Contexte : Migration des données d’un ancien cluster Hadoop 2.6 vers un cluster Hadoop 3.1.
o Développer un script bash qui génère des scripts DDL contenant les schémas des tables Hive
pour la création sur le nouveau cluster Hadoop.
o Parcourir le répertoire des scripts ‘.hql’ , les exécuter en boucle pour la création des table à
la destination en bash.
o Développer un script bash de migration des données autour d’un job Hadoop DistCp.
o Développer un module de fiabilité des données qui couvre plusieurs points de comparaison
entre les données à la source et à la destination (nombre de ligne par table, nombre de
partition par table…) avec Apache Spark (scala).
o Alimenter les comparatifs à Apache Zeppelin pour la mise en évidence des points de
différence.
Environnement : Hadoop, Apache Spark, Bash, SQL, HQL, Scala, Apache Zeppelin

Data Engineer
Intuition Factory
3/2020 - 5/2020
Contexte : Projet interne assurant la suivie des consultants ainsi que leurs timesheets, états
d’avancements, remarques et notes.
o Interroger la base SQL via des procédures stockées pour extraire les informations relatives
aux consultants (Id, journées validées, TJM…)
o Gérer le système de messagerie (Kafka) pour la livraison des données sur Azure.
o Agrégation des données pour l'analyse et l'alimentation des modèle ML avec Apache Spark
Environnement : Azure, Apache Kafka, Apache Spark, C#, .net, SQL

Data Engineer
Amaris
11/2018 - 2/2020
Contexte : Développement de deux moteurs de recherche pour un index Elastic.
o L’Interception de la préférence recherché (nom, profil, école de préférence, années
d’expériences. . .) et le moteur sélectionné pour l’exécution.
o La création d’une requête ElasticSearch avec NEST selon le moteur sélectionné.
Moteur 1 réalise une recherche sémantique (mot à mot).
Moteur 2 réalise une recherche syntaxique avec MLT.
o L’exécution de la requête sur le cluster Elastic.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
o L’envoie des top résultats (les documents XML) à la partie Front avec IIS.
o L’analyse et le nettoyage des XML avec C# et .net pour l’affichage dans des balise CsHtml.

Contexte : Développement d’un pipeline pour migrer les données des bases SQL vers un cluster
ElasticSearch.
o La définition des modèles des données à migrer (un modèle qui décrit un objet candidat).
o La rédaction des procédures stockées qui vont remmener les données en question.
o L’alimentation des modèles par les données adéquates.
o La création des requêtes Elastic qui vont injecter les modèles/Objets dans L’index Elastic.
Le développement des Windows services (.net Core) qui vont exécuter les SP et les requêtes
ELS en permanence.

Contexte : Mise en place d’un pipeline pour enrichir une base SQL et un index Elastic des candidats
avec des informations de géolocalisation.
o La réalisation d’un benchmark entre plusieurs APIs de géolocalisation (cout, performance,
vitesse…).
o La définition du modèle des données qui répond au besoin (structure géoloc sous l’objet
candidat).
o La rédaction de la procédure stockée SQL qui retourne les adresses des candidats.
o L’envoi des adresses à l’API afin de les convertir en objets de géolocalisation détaillés
(JSON).
o Le mapping des objets retournés avec le modèle de donnée défini avec dapper.
o L’enrichissement des bases existantes (SQL et Elastic) via la SP et la requête ELS.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
o Le développement d’un Windows service (.net Core) qui va exécuter la SP et les requêtes
ELS en permanence.

Contexte : Mise en place d’un pipeline pour enrichir une base SQL et un index Elastic des candidats
avec une représentation vectorielle décrivant le contenu.
o Le développement d’une API qui converti un objet candidat en un vecteur (table des réelles)
en C# et .net Standard.
o Le déploiement de l’API sur Azure.
o L’extraction des candidats à partir de la base SQL.
o La création des objets candidats (JSON) avec Entity FrameWork.
o L’envoi des objets JSON à l’API pour la conversion en vecteurs.
o L’insertion des vecteurs dans les objets candidats de base SQL.
o La mise à jour de l’index Elastic pour qu’il soit conforme avec SQL.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
Environnement : ElasticSearch, KIBANA, C#, .net Core, .net Standard, Entity FrameWork, SQL,
CsHtml, Windows service, JSON.

Contexte : Développement d’un moteur de recherche pour un index Elastic.
o L’Interception d’un vecteur recherché (vecteur représentant un candidat).
o La création d’une requête ElasticSearch avec NEST qui prend en paramètre le vecteur
(décrivant le candidat idéal à retourner) et qui rend les candidats ayant le vecteur les plus
proches.
o L’exécution de la requête sur le cluster Elastic.
o Le monitoring des résultats trouvés et les indicateurs de performance du cluster sur KIBANA.
o L’envoie des top résultats (les documents XML) à la partie Front avec IIS.
o L’analyse et le nettoyage des XML avec C# et .net pour l’affichage dans des balise CsHtml.
Environnement : ElasticSearch, KIBANA, C#, .net, SQL, CsHtml, XML

Data Engineer | Business&Decision

2/2018 - 6/2018
Contexte : Développement et mise en place d’une plateforme d’analyse des CDR d’un opérateur
téléphonique pour le marketing ciblé.
o Collection des CDR brutes via une API avec Scala.
o Sauvegarde temporaire des données sur un topic Kafka.
o Digestion des données avec Spark pour le cleaning.
o Pousser la data vers un autre topic Kafka.
o Mise en place d’une architecture LAMBDA (Spark pour la partie batch et Spark Streaming
pour le mode real time).
o Analyser les données avec des jobs Spark et segmenter les lignes par abonné et puis les
abonnés par somme de consommation total)
o Injecter les données agrégées dans un topic Kafka.
o Digestion des données et sauvegarde finale sur Cassandra et temporaire sur Hadoop HDFS
(les réserver pour le mode batch).
o Visualiser les abonnées par segment de consommation sur Zeppelin.
o Développement d’une application Maven pour l’automatisation des jobs.
Environnement : Apache Kafka, Apache Spark, Apache Spark Streaming, Hadoop, HDFS, Apache
Zeppelin, Scala, Maven.

Voir le profil complet de ce freelance