Data engineer
Ref : 251215C006-
Date de début22/12/2025
-
Localisation
75 - Paris
-
Durée3 mois (renouvelables)
-
Profil
Data Engineer
Nous recherchons un Data Engineer Senior avec une forte expertise en industrialisation, orchestration et gestion de pipelines de données dans un environnement Big Data (Hadoop, Spark, Data Lake) et en transition vers Snowflake.
1. Rôle principal
- Responsable de l'industrialisation des pipelines de données (ingestion, transformation, orchestration) dans un Data Lake (Hadoop/HDFS) et leur migration vers Snowflake.
- Garant du RUN : suivi de production, support aux incidents, gestion des habilitations, et coordination entre équipes (développement, production, projets).
- Automatisation des traitements via des scripts (Shell, Python) et des outils d'orchestration (Airflow, potentiellement OpCon).
2. Compétences techniques indispensables
Big Data :
- Maîtrise de l'écosystème Hadoop (HDFS, Hive, Spark, Sqoop).
- Spark (PySpark, SparkSQL) et Python pour le traitement des données.
- SQL (niveau expert) pour les requêtes et optimisations.
Orchestration/Automatisation :
- Développement de scripts Shell UNIX pour l'automatisation.
- Industrialisation de workflows avec Airflow (conteneurisé).
- Connaissance des outils d'échange de données (Kafka, NiFi).
DevOps/Infrastructure :
- Versioning avec Git.
- Conteneurisation (Docker/Kubernetes implicite via Airflow).
- Connaissance des bonnes pratiques DevOps pour l'industrialisation.
Migration vers Snowflake :
Industrialisation des traitements sur Snowflake/Snowpark (souhaitable).
3. Compétences fonctionnelles
- Rigueur pour la qualification des livraisons et le suivi des incidents.
- Aisance relationnelle pour coordonner les équipes (projets, production, métiers).
- Capacité à former les équipes (ex : formation Spark).
4. Environnement technique
Outils : Hadoop, Spark, Airflow, Snowflake, Git, JIRA (souhaitable), OpCon (souhaitable).
Langages : Python, Shell, SQL, Scala/Java (secondaire).
Architecture : Data Lake (HDFS) → Migration vers Snowflake.
5. Missions clés
Industrialisation :
Automatiser les chargements de données (scripts Shell/Python).
Déployer des pipelines Airflow conteneurisés.
Migrer des traitements vers Snowflake.
Suivi de production (RUN) :
Qualifier les livraisons des équipes de dev.
Gérer les incidents et les habilitations.
Assurer le support aux équipes métiers.
Coordination :
Travailler avec les équipes projets et production.
Documenter les processus et former si nécessaire.
2 jours de présence sur site et 3 jours de télétravail