CV Développeur Hadoop Cloudera : Recevez facilement les profils qui vous intéressent

Je dépose une mission gratuitement
Je dépose mon CV
Vous êtes freelance ?
Sécurisez votre activité grâce au portage salarial !

Exemple de missions d'Ousmane,
Développeur Hadoop Cloudera habitant le Val-de-Marne (94)

Expérience professionnelle

Tech Lead Big DATA Société Générale

07/2021 - 03/2024
Domaine Big Data
Projet : Revue analytique, Revue des comptes consolidés, certification comptable, refinancement implicite
Equipe initiale de 15 personnes (RESG/CFT/FIN)
Environnement principal : Hadoop Cloudera, Spark, Presto (Trino), Cube SSAS, Power BI
Problématique :
- Migration technique de Hortonworks vers Cloudera
- Mise en place de norme de développement de jobs Spark
- Migration des flux Talend vers Spark/scala
- Etude de faisabilité technique
- Analyse, conception et implémentation des besoins métier avec Spark/Scala
- Intégration et déploiement continue via jenkins/Ansible (awx)
- Planification des traitements dans control M
- Optimisation des traitements Spark/scala
- Veille technologique
- Documentation
- Correction des bugs/anomalies en production
- Cryptage des données
- Alimentation du cube SSAS
- Archivage des données
- Animation des réunions
- Intégration des données de sources diverses (fichiers, base de données, API)

MISSIONS
◼ Analyse du besoin et ateliers de cadrage
◼ Etude de faisabilité technique
◼ Estimation et planification
◼ Rédaction des spécifications techniques
◼ Migration des flux Talend big data vers Spark/Scala
◼ Maintien de l'exploitabilité des développements
◼ Gestion des interactions avec les utilisateurs tout au long du
projet
◼ Support (Documentation technique et mise à jour des documents
associés)
◼ Aide au suivi de production
◼ Analyse, Conception et implémentation des jobs Spark par rapport
aux règles métier
◼ Développement des tests unitaires
◼ Développement des pipelines d’intégration continue avec Jenkins
◼ Développement des Playbooks ansible -générique) de
déploiement des jobs
◼ Planification des jobs avec Control M
◼ Mise en homologation
◼ Mise en production
◼ Correction des anomalies
◼ Mise en place d’une norme de développement des jobs Spark
◼ Supervision des développements
◼ Gestion des tables externes Hive
◼ Alimentation des tables PostgreSQL avec Spark

ENVIRONNEMENT TECHNIQUE
◼ Système : Linux
◼ Langages : Scala, SQL, Shell
◼ Base de données : SQL
Server, PostgreSQL
◼ Framework : Hadoop
Cloudera, Spark
◼ Outils: Jenkins, Control M,
Ansible, Hive, Dbeaver,
Power BI, Git, Jira, Awx, Spark
SQL, Talend Data intégration,
Talend Big data, TAC, AWX,
Docker, Kubernetes
◼ Méthodologie : Agile

Développeur Big DATA GCP
09/2022 – 03/2024
Migration des jobs Spark/scala on premise vers GCP
Optimisation des traitements
Intégration des données de différentes sources
Documentation

Missions
◼ Formalisation des besoins
◼ Rédaction des documents techniques
◼ Ingestion des données dans Cloud Storage
◼ Identification de l’architecture et les outils de travail
◼ Import des données dans un bucket Cloud Storage
◼ Développement des jobs Dataproc/Dataflow de
transformation
◼ Implémentation des tests unitaires
◼ Sauvegarde des données dans Cloud Storage
◼ Analyse des données avec BigQuery
◼ Création de tables BigQuery pour requêter les données
◼ Planification des traitements avec Cloud Composer
(Airflow)
◼ Utilisation de Cloud logging, Monitoring
◼ Déploiement continue avec Cloud Build
◼ Stockage des artefacts dans Artifact Registry
◼ Optimisation des traitements Dataproc
◼ Migration des jobs dataproc en jobs dataflow (Java)
◼ Mise en homologation
◼ Mise en production
◼ Veille technologique
◼ Documentation

ENVIRONNEMENT TECHNIQUE
◼ Système : Unix/Linux
◼ Outils: Cloud Dataflow, Cloud
Storage, BigQuery, Cloud logging,
Cloud Monitoring, Cloud
Dataproc, Cloud Composer, Cloud
Build, Artifact Registry
◼ Langages: Scala, Java, SQL

Développeur Big DATA Databricks

Projet Personnel
Migration de traitements Spark vers Databricks sur GCP
TACHES
◼ Création de Workspace
◼ Gestion des clusters
◼ Implémentation des règles métier avec Databricks/Spark
◼ Planification des traitements
◼ Création de tables delta lake
◼ Sauvegarde des données
◼ TMA
◼ Formation des utilisateurs
◼ Veille technologique
◼ Documentation

ENVIRONNEMENT TECHNIQUE
◼ Système : Unix/Linux
◼ Outils: Databricks, Spark, delta
lake
◼ Langages: Python, SQL

Développeur Big DATA Groupe Fnac Darty

02/2018-06/2021
Domaine Big Data
Projet principal : Référentiel Client Groupe (RCG)
Equipe de 12 personnes.
Environnement principal : HADOOP MAPR, TERADATA
Problématique :
- Création et alimentation du datalake (différentes sources de données)
- Mise en place de solution générique d’import de données dans Hadoop avec système de reprise (plus de 500 tables)
- Import de données dans Hadoop
- Export de données vers Teradata
- Regroupement des clients
- Génération des identifiants groupe
- Déduplication des données
- Génération des fiches de paramétrage
- Respect des contraintes RGPD
- Séparation des données personnelles et non personnelles
- Développement de jobs avec des mécanismes de reprise
- Création des tables techniques de paramétrage
- Génération des tables cibles Hive et Hbase
- Scripting Shell, Awk, Sed
- Manipulation et extraction des données à partir de fichier par position
- TMA Hadoop

MISSIONS
◼ Création de datalake (données provenant de différentes
sources de données)
◼ Import de données dans Hadoop
◼ Export de données vers Teradata
◼ Génération des fiches de paramétrage
◼ Développement de jobs talend
◼ Développement d’un job générique d’import des données
d’une source externe vers Hadoop
◼ Développement d’un job générique d’export des données
de Hadoop vers Teradata
◼ Automatisation de déploiement de job sur la TAC
◼ Développement de scripts python pour générer des fiches
de paramétrage du job d’import
◼ Développement de scripts python pour générer des fiches
de paramétrage du job d’export
◼ Développement de scripts python pour générer des fiches
de paramétrage du job d’import de fichier vers Hadoop
◼ Génération des commandes SQL via Talend
◼ Insertion des données dans Hive via Talend
◼ Insertion des données dans HBase via Talend
◼ Rédaction de manuel d’utilisateur
◼ Formation des utilisateurs (job d’import)
◼ Respect des contraintes RGPD, TMA
◼ Release d’anciens jobs
◼ POC de comparaison du moteur de déduplication
◼ Développement de jobs Spark pour le POC du moteur de
déduplication des données
◼ Mise en place de table de suivi de job permettant de gérer
les reprises

ENVIRONNEMENT TECHNIQUE
◼ Système : Linux
◼ Langages : Scala, Python
◼ Outils: Talend, SQL Developer,
Hive, Hbase
◼ Base de données : Teradata
◼ Framework : Hadoop MAPR,
Spark,
◼ Outils : TAC, Shell, Awk, Sed

Développeur Big DATA
CACIB
09/2016 – 03/2017
Entité du groupe crédit agricole qui gère la partie investissement et financement
Utilisateurs : DBA, MOE, Incidents Manager, Incidents problem
Problématique :
- Comment automatiser les rapports sur les incidents de production ?
- Développement de nouveaux modules pour une application qui contient tout l’inventaire de CACIB côté
infrastructures (Clusters, Hosts, Applications, Databases, etc., …)
Exemple : Dashboard sur les incidents de production, test de DRP (Disaster Recovery Plan), test de Licence, Monitoring des
bases de données

MISSIONS
◼ Etudes de besoins utilisateurs
◼ Etudes des solutions techniques possibles
◼ Création d’un datalake
◼ Stockage des données sur HDFS
◼ Création de jobs Spark pour analyser les données
◼ Création de Dashboard avec Zeppelin
◼ Rédaction de la documentation
◼ Formation des utilisateurs

ENVIRONNEMENT TECHNIQUE
◼ Système : Redhat 6.0
◼ Langages : Scala, Python, Java
◼ Framework : Hadoop, Spark,
◼ Outils : Streamset, SQL Developer,
SQL Server Management studio,
Zeppelin
◼ Bases de données : Oracle, SQL
Server, Sybase

Ingénieur études et développements
CACIB
03/2017 - 09/2017
Problématique : Centralisation de tous les logs des bases de données et analyse
MISSIONS
◼ Etudes de besoins utilisateurs (DBA / MOE)
◼ Benchmark : Splunk vs Graylog
◼ Etudes des solutions techniques possibles
◼ Réalisation d’un POC
◼ Installation des outils :
Filebeat, Kafka, Streamset, Elasticsearch, Kibana
◼ Configuration de l’agent Filebeat
◼ Configuration de Kafka et création des topics
◼ Création de pipelines et transformation des données avec Streamset
◼ Stockage des données dans Elasticsearch
◼ Création des Dashboard avec Kibana
◼ Rédaction de la documentation
◼ Présentation de la solution aux utilisateurs

ENVIRONNEMENT TECHNIQUE
◼ Système : Redhat 6.0, Windows 7
◼ Langages : python
Outils : Streamset, Filebeat, Kafka,
Streamset, Elasticsearch, Kibana
◼ Bases de données : Oracle, SQL
Server, Sybase, ElasticSearch

Université Paris Dauphine
Master 2
Problématique :
- Générer un corpus de document dans lequel se répètent plusieurs mots croisés.
- Générer la matrice des occurrences des mots croisés pour tout le corpus (ensemble de documents)
- Projet réalise sur les Framework Hadoop et Spark
TACHES
◼ Implémentation des jobs map/reduce pour
◼ générer le corpus avec Hadoop (java)
◼ Implémentation des jobs spark pour
◼ générer le corpus avec Spark (scala)
◼ Implémentation des jobs map/reduce pour
◼ générer la matrice des co-occ...

Voir le profil complet de ce freelance

Les derniers profils de Développeur Hadoop Cloudera connectés

CV Ingénieur de développement AZURE
Nessrine

Ingénieur de développement AZURE

  • ÉLANCOURT
AZURE APACHE SPARK TALEND Snowflake SCALA PYTHON
CV Développeur C++ & Python
Cheikh

Développeur C++ & Python

  • ANTIBES
C++ PYTHON GIT MYSQL COUCHBASE VISUAL STUDIO DATA
Disponible
CV Data & DevOps Engineer
Samir

Data & DevOps Engineer

  • NANTERRE
JAVA SAP DEVOPS ANSIBLE APACHE SPARK APACHE HIVE SAP HANA APACHE HADOOP AZURE PYTHON
Disponible
CV Architecte  Big Data / Expert Cloud AWS/GCP/Azure
Mohamed

Architecte Big Data / Expert Cloud AWS/GCP/Azure

  • PALAISEAU
JAVA APACHE HADOOP DATA SCALA APACHE SPARK APACHE KAFKA BIG DATA AMAZON WEB SERVICES PYTHON AZURE
Disponible
CV Data Engineer | Developpeur Big Data
Mounir

Data Engineer | Developpeur Big Data

  • CHÂTENAY-MALABRY
APACHE SPARK SQL BIG DATA APACHE HADOOP SCALA JAVA PYTHON APACHE KAFKA NoSQL Cloudera
Disponible
CV Consultant Expert Talend (DI/ESB/MDM/BIGDATA)
Maher

Consultant Expert Talend (DI/ESB/MDM/BIGDATA)

  • Paris
PL SQL TALEND APACHE HADOOP TALEND MDM JDBC JAVA BIG DATA APACHE SPARK
Bientôt disponible
CV Data Analyst Microsoft Power BI
Amal

Data Analyst Microsoft Power BI

  • PARIS
Microsoft Power BI SQL DATA PYTHON AZURE SQL SERVER Google Cloud Platform BUSINESS OBJECTS BIGQUERY POSTGRESQL
Disponible
CV Data Analyst , Data Ingénieur,Data Architecte
Gnankoye

Data Analyst , Data Ingénieur,Data Architecte

  • MONTREUIL
AZURE Cloudera PYSPARK APACHE SPARK PYTHON SQL SERVER POSTGRESQL APACHE HADOOP SQL MYSQL
Disponible
CV cloud - data engineer
Shahul

cloud - data engineer

  • STAINS
PL SQL MCO JAVA SQL JENKINS APACHE HADOOP APACHE HIVE APACHE SPARK PYTHON DOCKER
Disponible
CV Business Analyst / Data Analyst
Thibault

Business Analyst / Data Analyst

  • L'HAŸ-LES-ROSES
SQL SAFE JIRA CONFLUENCE Microsoft Power BI PYTHON APACHE HADOOP
Disponible
Je trouve mon freelance