CV/Mission d'ingénieur data lake freelance

Vous êtes freelance ?

Sécurisez votre activité grâce au portage salarial !

Mme

Prénom ^*

Nom ^*

Email ^*

Téléphone ^*

Ville ^*

Avez-vous trouvé une mission ? ^*

J'accepte d'être contacté par nos partenaires, experts en portage salarial et j'accepte la politique de confidentialité du site www.freelance-informatique.fr

Exemple de missions de Slim,
Ingénieur data lake habitant le Val-de-Marne (94)

EXPERIENCES PROFESSIONNELLES

Missions en Freelance (2 expériences – Projet 7 et 6)
Projet 7 Dalma : Cloud/ Big Data Ingénieur - Pyspark développeur– AWS - Depuis 05/2022
PROJET : Proposition d'une nouvelle architecture AWS qui permet la collecte, le traitement et l'automatisation de la génération
de rapports financiers mensuels pour l'assureur de manière évolutive et générique en France et à l'international.
Réalisations
▪ Amélioration et proposition de nouvelles architectures AWS adaptées aux besoins de chaque projet.
▪ Optimisation continue des coûts par la création d'un système de notifications en temps réel.
▪ Gestion des accès aux ressources AWS pour l'équipe data - IAM
▪ Optimisation et création de scripts à l'aide de pyspark (pour la préparation du big data)
▪ Centraliser les requêtes SQL provenant de différentes sources de données et les transformer en DataPipelines pyspark
automatisés.
▪ Configuration et installation de composants AWS multi-cloud pour centraliser les données provenant de sources
externes et les données provenant d'autres clouds (BigQuery)
▪ Extraction automatique (OCR) et collecte de données non structurées à partir de fiches de soins avec AWS Textract
▪ Développement et optimisation de DataPipeline avec GlueETL et GlueVisual
▪ Création et automatisation de différents workflows avec un système de notifications sur Slack avec EventBridge
▪ Optimisation du stockage de différentes tables et centralisation des données ainsi que l'exploitation des ressources
AWS (combinaison d'ETL, format de stockage, sélection de variables)
▪ Créer une documentation détaillée de tous les projets (sources de données, architectures et outils utilisés) via des
diagrammes simplifiés et centralisés (draw.io)
▪ Amélioration continue de la DataQuality des données sources ainsi que des rapports financiers générés.
▪ Orchestration des données et création de sauvegardes continues sur les données sources et les rapports générés.
▪ Suivi et configuration des événements sur CloudWatch
▪ Détection d'anomalies dans les données sources et correction des tables via les fonctions lambda
ENVIRONNEMENTS : AWS, lambda, Glue ETL , S3, Athena, dynamoDB, EventBridge, SageMaker, spark, python,Textract,SQL

Projet 6 : Bouygues telecom - Data Ingénieur/ Développeur PySpark- 1 an - Depuis 04/2021
PROJET : Création de socles et élaboration de dashboard (KPI) pour le suivi des projets (messages d’erreurs, équipements, box…)
Réalisations
Achievements
▪ Préparation et connexions aux sources de données
▪ Automatisation du nettoyage des sources de données
▪ Optimisation des scripts spark existants
▪ Proposition et partage de bonnes pratiques - Documentation
▪ Création de bases de données (jupyter + pyspark (spark sql notamment))
Création de DAGs et de fichiers de configuration (git)
▪ Automatisation des jobs avec Airflow
Visualization:
▪ Création de tableaux de bord avec superset
▪ Migration de tableaux de bord vers Tableau (serveur et bureau)
ENVIRONNEMENTS : Jupyter, Python, PySpark , Tableau Software, Airflow , Superset

Mission en consulting (5 expériences – Projet 1 à 5)
Adservio Lyon - ESN Data ingénieur et référent technique- 4 ans
● Responsabilités managériales en tant que référent technique:
▪ Pass technical interviews and selection of data profiles
▪ Supervise and follow the development of the employees of my internal team
▪ Look for new collaborators to grow the team Work in close collaboration with the training division to develop
the activity Analyze the data division, its profitability and its development
▪ Support sales representatives in pre-sales Technical responsibilities
▪ Set up a training program on several cutting-edge technologies to improve the skills of consultants with
sharing of best practices
▪ Contribute to the integration of consultants under the best conditions
▪ Organize and offer events, workshops ...
▪ Be a source of proposals to sales and training centers and develop its activities
▪ R&D projects
▪ Project management
▪ Definitions of needs and distribution of tasks (Agility)
▪ Evaluation of technical solutions

● Responsabilités technique : 5 expériences pour différents clients
Projet 5 : Schneider Electric - Data Ingénieur/Développeur PySpark –21 mois - Depuis 07/2019
PROJET : DataQuality, DataGouvernance, Machine Learning
- Amélioration des procédures de collecte de données pour inclure des informations pertinentes pour la construction des
systèmes analytiques
- Détection d’anomalies dans les jeux de données Schneider
- Amélioration de la qualité des données en utilisant des algorithmes de machine learning.
- Optimisation et/ou création de pipelines spark pour gagner en performance
- Utilisation de Glue AWS pour les jobs spark coûteux (en termes de volumétrie et consommation mémoire) -
Vérification de l’intégration des données avec Athena.
Réalisations :
▪ Préparation des données
- Création des connexions aux données stockées sous S3 amazon bucket (Redshift)
- Transformation des données sous format parquet (optimisation des stockages via des partitions)
- Préparation et exploration des données avec SageMaker (noyau Pyspark) sur AWS
- Traitement, nettoyage et vérification de l'intégrité des données utilisées pour l'analyse
- Effectuer des analyses ponctuelles et présenter les résultats en utilisant Tableau Software
- Création de pipeline spark/python pour l’optimisation de certains processus (StringIndexer, OneHotEncoder,
VectorAssember, Standardscaler…)
- Intégration et installation de librairies externes (pyarrow, boto3…)
▪ Machine Learning
- Création de systèmes automatisés de détection des anomalies et suivi de ses performances
- Sélection des variables en se basant sur des méthodes statistiques et le business
- Elaboration de modèles pour la prédiction et la détection des anomalies (comparaison de performances des algorithmes
pour la sélection du meilleur modèle)
- Analyses des données non structurées et détection des similarités (fuzzywuzzy)

Utilisation de certains concepts et techniques de NLP (TF-IDF, Bag of words , Cosine similarity, stopwords, Levenshtein
Distance, stemming and lemmatization)
- Création et test de plusieurs pipelines en utilisant (SoundIndex, Hash, NGam…)
- Clustering (algorithme Isolation Forest) pour identifier et confirmer certaines anomalies dans la BD.
ENVIRONNEMENTS : Python, PySpark, AWS, SparkMagic, Glue, S3, Athena, Lambda, Databricks,Tableau Software.

Projet 4 : Groupe Caisse de dépôts (ICDC) - Data Ingénieur /Développeur PySpark- 8 mois -
Depuis 09/2018
PROJET : Mettre à disposition un nouvel outil de requêtage et de décisionnel internalisé à la CDC couvrant les besoins existants
des métiers sur l’ancienne solution INGRE qui est gérée et hébergée par les équipes de la Banque de France au sein du GIE
Victoire Paiement. Cette solution aura pour but de répondre à de nouveaux besoins exprimés notamment en termes de DataViz
avec une 360 de l’ensemble des opérations financières en réception et à destination de la Place en utilisant des technologies de
Big Data.
Réalisations :
▪ Gestion de projet
- Test de solutions techniques et comparaison de performance à travers des ateliers
- Proposition de pistes d’améliorations en travaillant avec le socle Big Data
- Elaboration de workshops et formation en interne pour les transferts et montés en compétences
- Suivi et découpage des tâches techniques en suivant la méthode agile (Confluence, Godzilla, trello)
- Proposition d’activités de team building
▪ Optimisation d’un script existant
- Redéfinition des structures utilisées (les schémas)
- Utilisation des transformations RDD/DF et inversement
- Vectorisation de tout le script (enlever les while, boucles…)
- Utilisation des actions et transformations spark (map, reduce…)
- Parallélisation de tous les objets utilisés
- Utilisation du mode cluster pour distribuer les calculs
- Optimisation de la consommation de la mémoire
- Utilisation de databricks pour le traitement des XML
▪ Configuration de la connexion aux fichiers HDFS sur le DataLake
- Gestion des droits d’accès
- Récupération des flux de données
- Importation et stockage des fichiers qui contiennent les opérations bancaires sur le DataLake
▪ Développement Spark (Intégration de 18 types d’opérations)
- Traitement et préparation des données massives
- Récupération des champs en utilisant les udfs (RIB, IBAN, adresse…)
- Configuration des paramètres de lancement (nombre de clusters, d’exécuteurs, mémoire…
- Elaboration d’un script d’anonymisation des données sensibles
- Ingestion des données dans des tables HIVE ORC
- Lancement des job Spark avec spark-submit en mode client et cluster
- Test de performances
▪ Elaboration de dashboards
- Recherche Unitaire sur les opérations
- Visualisation des flux des opérations émises et reçus et statistique descriptive
▪ Mise en production
- Contribution dans les recettes MOA et MOE
- Support et travail avec le socle BIG DATA pour la mise en production
- Elaboration des tests techniques et métiers et optimisation
ENVIRONNEMENTS: Python, PySpark, databricks, HIVE, ORC, Hortonworks, Talend Open Studio BD, Tableau

Projet 3 : Bouygues Construction- Chef de Projet/ Team Leader Data Scientist - 8 mois
Depuis 01/2018
Réalisations :
▪ Chef de projet et team leader Data
- Rencontre des différents clients et compréhension des besoins
- Proposition de solutions innovantes en se basant sur la compréhension du métier
- Choix des techniques et algorithmes nécessaires pour résoudre les problèmes
- Intervention et coaching en interne…
- Suivi, estimation et découpage des tâches en...

Voir le profil complet de ce freelance

Profils similaires parfois recherchés

6 mois

Voir la mission

Je trouve ma mission

Les derniers CV d'Ingénieur data lake disponibles

Ingénieur de développement JAVA/Python

PALAISEAU

Java SQL Spring Boot Python TypeScript Angular DevOps Microservices Vue.js HashiCorp Terraform

Administrateur Bases de Données JAVA

AULNAY-SOUS-BOIS

Java Oracle SQL Server SQL PostgreSQL Unix Windows Linux ITIL

Product Owner, Chef de Projet

PARIS

Agile Jira Scrum Confluence SQL Oracle Data

Data engineer

CLERMONT-FERRAND

SQL Microsoft Power BI Transact SQL Python PySpark Azure Data Factory Azure Azure Synapse

Data Architect / Data Engineer

VILLIERS-SUR-MARNE

Python Talend Google Cloud Platform Azure Git Linux SQL BigQuery Docker C#

Architecte Technique et Applicatif

CERGY

Microservices WSO2 SOA RabbitMQ Amazon AWS Oracle SQL Server J2EE .NET Linux

Solution Architect

NANTERRE

Oracle Java API RESTful

Data Engineer | Devops

BOISSY-SAINT-LÉGER

GitLab Databricks CI/CD HashiCorp Terraform PySpark Cloud AWS Jenkins Docker SQL Python

Architecte Cloud AWS / Ingénieur Cloud

FACHES-THUMESNIL

Cloud AWS Python Serverless

Chef de projet PROJECT MANAGEMENT OFFICE

NOISY LE SEC

Project Management Office MS Project MDM Excel Oracle SQL Data Datacenter Java J2EE

Je trouve mon freelance

Exemple de missions de Slim, Ingénieur data lake habitant le Val-de-Marne (94)

Profils similaires parfois recherchés

Les nouvelles missions d'Ingénieur data lake

PARIS - Ingénieur Data / Ingénieur Cloud

Développeur React Native Databricks

Data Platform Enablement Engineer

Data ingénieur/Architecte Data

Développeur Java Spark Scala

Ingénieur DBA confirmé

Ingénieur DBA / DevOps (Cloud AWS)

Developpeur Salesforce Marketing Cloud 3-7 ans d'experience

Consultant FinOps Cloud

Data Engineer (Bruxelles)