Développeur Hadoop Cloudera : Derniers profils identifiés et nouvelles missions déposées

Je dépose une mission gratuitement
Je dépose mon CV
Vous êtes freelance ?
Sécurisez votre activité grâce au portage salarial !

Exemple de missions d'Ousmane,
Développeur Hadoop Cloudera habitant le Val-de-Marne (94)

  • Développeur Big DATA

    GCP
    Jan 2022 - Jan 2024

    Migration des jobs Spark/scala on premise vers GCP
    Optimisation des traitements
    Intégration des données de différentes sources
    Documentation

    Missions
    ◼ Formalisation des besoins
    ◼ Rédaction des documents techniques
    ◼ Ingestion des données dans Cloud Storage
    ◼ Identification de l’architecture et les outils de travail
    ◼ Import des données dans un bucket Cloud Storage
    ◼ Développement des jobs Dataproc/Dataflow de
    transformation
    ◼ Implémentation des tests unitaires
    ◼ Sauvegarde des données dans Cloud Storage
    ◼ Analyse des données avec BigQuery
    ◼ Création de tables BigQuery pour requêter les données
    ◼ Planification des traitements avec Cloud Composer
    (Airflow)
    ◼ Utilisation de Cloud logging, Monitoring
    ◼ Déploiement continue avec Cloud Build
    ◼ Stockage des artefacts dans Artifact Registry
    ◼ Optimisation des traitements Dataproc
    ◼ Migration des jobs dataproc en jobs dataflow (Java)
    ◼ Mise en homologation
    ◼ Mise en production
    ◼ Veille technologique
    ◼ Documentation

    ENVIRONNEMENT TECHNIQUE ◼ Système : Unix/Linux ◼ Outils: Cloud Dataflow, Cloud Storage, BigQuery, Cloud logging, Cloud Monitoring, Cloud Dataproc, Cloud Composer, Cloud Build, Artifact Registry ◼ Langages: Scala, Java, SQL
  • Tech Lead Big DATA

    Société Générale
    Jan 2021 - Jan 2024

    Domaine Big Data
    Projet : Revue analytique, Revue des comptes consolidés, certification comptable, refinancement implicite
    Equipe initiale de 15 personnes (RESG/CFT/FIN)

    Environnement principal : Hadoop Cloudera, Spark, Presto (Trino), Cube SSAS, Power BI
  • Développeur Big DATA

    Groupe Fnac Darty
    Jan 2018 - Jan 2021

    Domaine Big Data
    Projet principal : Référentiel Client Groupe (RCG)
    Equipe de 12 personnes.

    Environnement principal : HADOOP MAPR, TERADATA
  • Ingénieur études et développements

    CACIB
    Jan 2017 - Jan 2017

    Problématique : Centralisation de tous les logs des bases de données et analyse
    MISSIONS
    ◼ Etudes de besoins utilisateurs (DBA / MOE)
    ◼ Benchmark : Splunk vs Graylog
    ◼ Etudes des solutions techniques possibles
    ◼ Réalisation d’un POC
    ◼ Installation des outils :
    Filebeat, Kafka, Streamset, Elasticsearch, Kibana
    ◼ Configuration de l’agent Filebeat
    ◼ Configuration de Kafka et création des topics
    ◼ Création de pipelines et transformation des données avec Streamset
    ◼ Stockage des données dans Elasticsearch
    ◼ Création des Dashboard avec Kibana
    ◼ Rédaction de la documentation
    ◼ Présentation de la solution aux utilisateurs

    ENVIRONNEMENT TECHNIQUE ◼ Système : Redhat 6.0, Windows 7 ◼ Langages : python Outils : Streamset, Filebeat, Kafka, Streamset, Elasticsearch, Kibana ◼ Bases de données : Oracle, SQL Server, Sybase, ElasticSearch
  • Développeur Big DATA

    CACIB
    Jan 2016 - Jan 2017

    Entité du groupe crédit agricole qui gère la partie investissement et financement
    Utilisateurs : DBA, MOE, Incidents Manager, Incidents problem
    Problématique :
    - Comment automatiser les rapports sur les incidents de production ?
    - Développement de nouveaux modules pour une application qui contient tout l’inventaire de CACIB côté
    infrastructures (Clusters, Hosts, Applications, Databases, etc., …)
    Exemple : Dashboard sur les incidents de production, test de DRP (Disaster Recovery Plan), test de Licence, Monitoring des
    bases de données

    MISSIONS
    ◼ Etudes de besoins utilisateurs
    ◼ Etudes des solutions techniques possibles
    ◼ Création d’un datalake
    ◼ Stockage des données sur HDFS
    ◼ Création de jobs Spark pour analyser les données
    ◼ Création de Dashboard avec Zeppelin
    ◼ Rédaction de la documentation
    ◼ Formation des utilisateurs

    ENVIRONNEMENT TECHNIQUE ◼ Système : Redhat 6.0 ◼ Langages : Scala, Python, Java ◼ Framework : Hadoop, Spark, ◼ Outils : Streamset, SQL Developer, SQL Server Management studio, Zeppelin ◼ Bases de données : Oracle, SQL Server, Sybase
  • aujourd'hui

    Problématique :
    - Migration technique de Hortonworks vers Cloudera
    - Mise en place de norme de développement de jobs Spark
    - Migration des flux Talend vers Spark/scala
    - Etude de faisabilité technique
    - Analyse, conception et implémentation des besoins métier avec Spark/Scala
    - Intégration et déploiement continue via jenkins/Ansible (awx)
    - Planification des traitements dans control M
    - Optimisation des traitements Spark/scala
    - Veille technologique
    - Documentation
    - Correction des bugs/anomalies en production
    - Cryptage des données
    - Alimentation du cube SSAS
    - Archivage des données
    - Animation des réunions
    - Intégration des données de sources diverses (fichiers, base de données, API)

    MISSIONS
    ◼ Analyse du besoin et ateliers de cadrage
    ◼ Etude de faisabilité technique
    ◼ Estimation et planification
    ◼ Rédaction des spécifications techniques
    ◼ Migration des flux Talend big data vers Spark/Scala
    ◼ Maintien de l'exploitabilité des développements
    ◼ Gestion des interactions avec les utilisateurs tout au long du
    projet
    ◼ Support (Documentation technique et mise à jour des documents
    associés)
    ◼ Aide au suivi de production
    ◼ Analyse, Conception et implémentation des jobs Spark par rapport
    aux règles métier
    ◼ Développement des tests unitaires
    ◼ Développement des pipelines d’intégration continue avec Jenkins
    ◼ Développement des Playbooks ansible -générique) de
    déploiement des jobs
    ◼ Planification des jobs avec Control M
    ◼ Mise en homologation
    ◼ Mise en production
    ◼ Correction des anomalies
    ◼ Mise en place d’une norme de développement des jobs Spark
    ◼ Supervision des développements
    ◼ Gestion des tables externes Hive
    ◼ Alimentation des tables PostgreSQL avec Spark

    ENVIRONNEMENT TECHNIQUE ◼ Système : Linux ◼ Langages : Scala, SQL, Shell ◼ Base de données : SQL Server, PostgreSQL ◼ Framework : Hadoop Cloudera, Spark ◼ Outils: Jenkins, Control M, Ansible, Hive, Dbeaver, Power BI, Git, Jira, Awx, Spark SQL, Talend Data intégration, Talend Big data, TAC, AWX, Docker, Kubernetes ◼ Méthodologie : Agile
  • Développeur Big DATA

    Databricks
    aujourd'hui

    Projet Personnel
    Migration de traitements Spark vers Databricks sur GCP
    TACHES
    ◼ Création de Workspace
    ◼ Gestion des clusters
    ◼ Implémentation des règles métier avec Databricks/Spark
    ◼ Planification des traitements
    ◼ Création de tables delta lake
    ◼ Sauvegarde des données
    ◼ TMA
    ◼ Formation des utilisateurs
    ◼ Veille technologique
    ◼ Documentation

    ENVIRONNEMENT TECHNIQUE ◼ Système : Unix/Linux ◼ Outils: Databricks, Spark, delta lake ◼ Langages: Python, SQL
  • aujourd'hui

    Problématique :
    - Création et alimentation du datalake (différentes sources de données)
    - Mise en place de solution générique d’import de données dans Hadoop avec système de reprise (plus de 500 tables)
    - Import de données dans Hadoop
    - Export de données vers Teradata
    - Regroupement des clients
    - Génération des identifiants groupe
    - Déduplication des données
    - Génération des fiches de paramétrage
    - Respect des contraintes RGPD
    - Séparation des données personnelles et non personnelles
    - Développement de jobs avec des mécanismes de reprise
    - Création des tables techniques de paramétrage
    - Génération des tables cibles Hive et Hbase
    - Scripting Shell, Awk, Sed
    - Manipulation et extraction des données à partir de fichier par position
    - TMA Hadoop

    MISSIONS
    ◼ Création de datalake (données provenant de différentes
    sources de données)
    ◼ Import de données dans Hadoop
    ◼ Export de données vers Teradata
    ◼ Génération des fiches de paramétrage
    ◼ Développement de jobs talend
    ◼ Développement d’un job générique d’import des données
    d’une source externe vers Hadoop
    ◼ Développement d’un job générique d’export des données
    de Hadoop vers Teradata
    ◼ Automatisation de déploiement de job sur la TAC
    ◼ Développement de scripts python pour générer des fiches
    de paramétrage du job d’import
    ◼ Développement de scripts python pour générer des fiches
    de paramétrage du job d’export
    ◼ Développement de scripts python pour générer des fiches
    de paramétrage du job d’import de fichier vers Hadoop
    ◼ Génération des commandes SQL via Talend
    ◼ Insertion des données dans Hive via Talend
    ◼ Insertion des données dans HBase via Talend
    ◼ Rédaction de manuel d’utilisateur
    ◼ Formation des utilisateurs (job d’import)
    ◼ Respect des contraintes RGPD, TMA
    ◼ Release d’anciens jobs
    ◼ POC de comparaison du moteur de déduplication
    ◼ Développement de jobs Spark pour le POC du moteur de
    déduplication des données
    ◼ Mise en place de table de suivi de job permettant de gérer
    les reprises

    ENVIRONNEMENT TECHNIQUE ◼ Système : Linux ◼ Langages : Scala, Python ◼ Outils: Talend, SQL Developer, Hive, Hbase ◼ Base de données : Teradata ◼ Framework : Hadoop MAPR, Spark, ◼ Outils : TAC, Shell, Awk, Sed
  • Université Paris Dauphine Master 2
    aujourd'hui

    Problématique :
    - Générer un corpus de document dans lequel se répètent plusieurs mots croisés.
    - Générer la matrice des occurrences des mots croisés pour tout le corpus (ensemble de documents)
    - Projet réalise sur les Framework Hadoop et Spark
    TACHES
    ◼ Implémentation des jobs map/reduce pour
    ◼ générer le corpus avec Hadoop (java)
    ◼ Implémentation des jobs spark pour
    ◼ générer le corpus avec Spark (scala)
    ◼ Implémentation des jobs map/reduce pour
    ◼ générer la matrice des co-occ...

Voir le profil complet de ce freelance

Les nouvelles missions de Développeur Hadoop Cloudera

Développeur Big Data

Apache Spark Scala
ASAP
75013
6 mois
Voir la mission

Développeur BIG DATA

Big Data
ASAP
44 - Nantes
3 mois
Voir la mission

Intégrateur LLM

Impromptu Python Cloud AWS Amazon SageMaker LLM
ASAP
44 - NANTES
12 mois
Voir la mission

Lead technique pour encadrer une équipe Big Data

Java Python Apache Hadoop Apache Spark Cloudera
ASAP
75 - PARIS
237 jours ouvrés
Voir la mission

Développeur BIG DATA JAVA

Java Apache Hadoop Big Data Cloudera
ASAP
67 - STRASBOURG
6 mois
Voir la mission

Développeur et administrateur Big Data

SQL Apache Hadoop Apache Spark Cloudera PySpark
ASAP
69 - LYON
12 mois
Voir la mission

Développeur JAVA / SPARK / HADOOP

Apache Hadoop Apache Spark Java
ASAP
75 - Paris
6 mois
Voir la mission

Data Engineer Java ou Python

Java Data Python Big Data Apache Spark
ASAP
69 - LYON
12 mois
Voir la mission

Consultant Big data Hadoop

Apache Script Shell Apache Hadoop
ASAP
94 - FONTENAY-SOUS-BOIS
6 mois
Voir la mission

Développement et administration Big Data - Profil expérimenté

SQL DataStage Talend PySpark
ASAP
Lyon
218 jours ouvrés
Voir la mission
Je trouve ma mission

Les derniers CV de Développeur Hadoop Cloudera disponibles

CV Développeur Java Angular
Saber

Développeur Java Angular

  • PESSAC
Java Angular SQL JavaScript TypeScript Microservices API RESTful Jenkins Docker Cloud AWS
CV Ingénieur de développement Full Stack
Madani

Ingénieur de développement Full Stack

  • SAINT-AUBIN-DE-MÉDOC
SQL JavaScript HTML CSS Talend DI PostgreSQL SQL Server Python PHP Node.js
CV Architecte Java Fullstack Devops
Georges

Architecte Java Fullstack Devops

  • MONTMAGNY
MySQL Oracle J2EE Elasticsearch MongoDB Cassandra AngularJS GitLab Scala HashiCorp Terraform
Bientôt disponible
CV Consultant TALEND
Amine

Consultant TALEND

  • NANTES
Talend DI SQL Tableau Software BigQuery Google Data Studio Salesforce
Bientôt disponible
CV Data & Cloud Architect
Guy-Albert

Data & Cloud Architect

  • BAGNEUX
Java DevOps Big Data Apache Hadoop C++ J2EE C ANSI SQL Sybase Linux
Bientôt disponible
CV CONSULTANT INDÉPENDANT ▫ CRÉATION ET DÉVELOPPEMENT D'APPLICATIONS DESKTOP, WEB ET MOBILES (FLUTTER, KOTLIN, JETPACK COMPOSE, KMP TECHNOLOGIES). SPÉCIALISTE DES PLATEFORMES BA
Jean Pierre

CONSULTANT INDÉPENDANT ▫ CRÉATION ET DÉVELOPPEMENT D'APPLICATIONS DESKTOP, WEB ET MOBILES (FLUTTER, KOTLIN, JETPACK COMPOSE, KMP TECHNOLOGIES). SPÉCIALISTE DES PLATEFORMES BA

  • Lieusaint
Flutter Big Data Data Warehouse Enterprise Architect Java Python Kotlin
Disponible
CV Data Engineer
Karim

Data Engineer

  • COURCOURONNES
Talend DI SQL Google Cloud Platform Airflow PySpark Python Cloud AWS Power BI NoSQL
Disponible
CV TECH LEAD DATA ENGINEER SENIOR
Moncif

TECH LEAD DATA ENGINEER SENIOR

  • Ruel
BI Big Data Informatica Teradata SQL Script Shell Snowflake Cloud AWS Python VTOM
Disponible
CV Architecte Solution
Mohamed Amine

Architecte Solution

  • BAGNEUX
Bonita BPM Java IBM Case Manager SQL AngularJS Agile Linux ArchiMate Oracle TOGAF
Disponible
CV Data Engineer
Richy

Data Engineer

  • MEAUX
Apache Spark Apache Hadoop Java Scala Apache Hive Apache Kafka CI/CD YARN Kubernetes
Disponible
Je trouve mon freelance