CV/Mission d'Ingénieur data lake freelance

Je dépose une mission gratuitement
Je dépose mon CV
Vous êtes freelance ?
Sécurisez votre activité grâce au portage salarial !

Exemple de missions de Slim,
Ingénieur data lake habitant le Val-de-Marne (94)

EXPERIENCES PROFESSIONNELLES

Missions en Freelance (2 expériences – Projet 7 et 6)
Projet 7 Dalma : Cloud/ Big Data Ingénieur - Pyspark développeur– AWS - Depuis 05/2022
PROJET : Proposition d'une nouvelle architecture AWS qui permet la collecte, le traitement et l'automatisation de la génération
de rapports financiers mensuels pour l'assureur de manière évolutive et générique en France et à l'international.
Réalisations
▪ Amélioration et proposition de nouvelles architectures AWS adaptées aux besoins de chaque projet.
▪ Optimisation continue des coûts par la création d'un système de notifications en temps réel.
▪ Gestion des accès aux ressources AWS pour l'équipe data - IAM
▪ Optimisation et création de scripts à l'aide de pyspark (pour la préparation du big data)
▪ Centraliser les requêtes SQL provenant de différentes sources de données et les transformer en DataPipelines pyspark
automatisés.
▪ Configuration et installation de composants AWS multi-cloud pour centraliser les données provenant de sources
externes et les données provenant d'autres clouds (BigQuery)
▪ Extraction automatique (OCR) et collecte de données non structurées à partir de fiches de soins avec AWS Textract
▪ Développement et optimisation de DataPipeline avec GlueETL et GlueVisual
▪ Création et automatisation de différents workflows avec un système de notifications sur Slack avec EventBridge
▪ Optimisation du stockage de différentes tables et centralisation des données ainsi que l'exploitation des ressources
AWS (combinaison d'ETL, format de stockage, sélection de variables)
▪ Créer une documentation détaillée de tous les projets (sources de données, architectures et outils utilisés) via des
diagrammes simplifiés et centralisés (draw.io)
▪ Amélioration continue de la DataQuality des données sources ainsi que des rapports financiers générés.
▪ Orchestration des données et création de sauvegardes continues sur les données sources et les rapports générés.
▪ Suivi et configuration des événements sur CloudWatch
▪ Détection d'anomalies dans les données sources et correction des tables via les fonctions lambda
ENVIRONNEMENTS : AWS, lambda, Glue ETL , S3, Athena, dynamoDB, EventBridge, SageMaker, spark, python,Textract,SQL

Projet 6 : Bouygues telecom - Data Ingénieur/ Développeur PySpark- 1 an - Depuis 04/2021
PROJET : Création de socles et élaboration de dashboard (KPI) pour le suivi des projets (messages d’erreurs, équipements, box…)
Réalisations
Achievements
▪ Préparation et connexions aux sources de données
▪ Automatisation du nettoyage des sources de données
▪ Optimisation des scripts spark existants
▪ Proposition et partage de bonnes pratiques - Documentation
▪ Création de bases de données (jupyter + pyspark (spark sql notamment))
Création de DAGs et de fichiers de configuration (git)
▪ Automatisation des jobs avec Airflow
Visualization:
▪ Création de tableaux de bord avec superset
▪ Migration de tableaux de bord vers Tableau (serveur et bureau)
ENVIRONNEMENTS : Jupyter, Python, PySpark , Tableau Software, Airflow , Superset

Mission en consulting (5 expériences – Projet 1 à 5)
Adservio Lyon - ESN Data ingénieur et référent technique- 4 ans
● Responsabilités managériales en tant que référent technique:
▪ Pass technical interviews and selection of data profiles
▪ Supervise and follow the development of the employees of my internal team
▪ Look for new collaborators to grow the team Work in close collaboration with the training division to develop
the activity Analyze the data division, its profitability and its development
▪ Support sales representatives in pre-sales Technical responsibilities
▪ Set up a training program on several cutting-edge technologies to improve the skills of consultants with
sharing of best practices
▪ Contribute to the integration of consultants under the best conditions
▪ Organize and offer events, workshops ...
▪ Be a source of proposals to sales and training centers and develop its activities
▪ R&D projects
▪ Project management
▪ Definitions of needs and distribution of tasks (Agility)
▪ Evaluation of technical solutions

● Responsabilités technique : 5 expériences pour différents clients
Projet 5 : Schneider Electric - Data Ingénieur/Développeur PySpark –21 mois - Depuis 07/2019
PROJET : DataQuality, DataGouvernance, Machine Learning
- Amélioration des procédures de collecte de données pour inclure des informations pertinentes pour la construction des
systèmes analytiques
- Détection d’anomalies dans les jeux de données Schneider
- Amélioration de la qualité des données en utilisant des algorithmes de machine learning.
- Optimisation et/ou création de pipelines spark pour gagner en performance
- Utilisation de Glue AWS pour les jobs spark coûteux (en termes de volumétrie et consommation mémoire) -
Vérification de l’intégration des données avec Athena.
Réalisations :
▪ Préparation des données
- Création des connexions aux données stockées sous S3 amazon bucket (Redshift)
- Transformation des données sous format parquet (optimisation des stockages via des partitions)
- Préparation et exploration des données avec SageMaker (noyau Pyspark) sur AWS
- Traitement, nettoyage et vérification de l'intégrité des données utilisées pour l'analyse
- Effectuer des analyses ponctuelles et présenter les résultats en utilisant Tableau Software
- Création de pipeline spark/python pour l’optimisation de certains processus (StringIndexer, OneHotEncoder,
VectorAssember, Standardscaler…)
- Intégration et installation de librairies externes (pyarrow, boto3…)
▪ Machine Learning
- Création de systèmes automatisés de détection des anomalies et suivi de ses performances
- Sélection des variables en se basant sur des méthodes statistiques et le business
- Elaboration de modèles pour la prédiction et la détection des anomalies (comparaison de performances des algorithmes
pour la sélection du meilleur modèle)
- Analyses des données non structurées et détection des similarités (fuzzywuzzy)

Utilisation de certains concepts et techniques de NLP (TF-IDF, Bag of words , Cosine similarity, stopwords, Levenshtein
Distance, stemming and lemmatization)
- Création et test de plusieurs pipelines en utilisant (SoundIndex, Hash, NGam…)
- Clustering (algorithme Isolation Forest) pour identifier et confirmer certaines anomalies dans la BD.
ENVIRONNEMENTS : Python, PySpark, AWS, SparkMagic, Glue, S3, Athena, Lambda, Databricks,Tableau Software.

Projet 4 : Groupe Caisse de dépôts (ICDC) - Data Ingénieur /Développeur PySpark- 8 mois -
Depuis 09/2018
PROJET : Mettre à disposition un nouvel outil de requêtage et de décisionnel internalisé à la CDC couvrant les besoins existants
des métiers sur l’ancienne solution INGRE qui est gérée et hébergée par les équipes de la Banque de France au sein du GIE
Victoire Paiement. Cette solution aura pour but de répondre à de nouveaux besoins exprimés notamment en termes de DataViz
avec une 360 de l’ensemble des opérations financières en réception et à destination de la Place en utilisant des technologies de
Big Data.
Réalisations :
▪ Gestion de projet
- Test de solutions techniques et comparaison de performance à travers des ateliers
- Proposition de pistes d’améliorations en travaillant avec le socle Big Data
- Elaboration de workshops et formation en interne pour les transferts et montés en compétences
- Suivi et découpage des tâches techniques en suivant la méthode agile (Confluence, Godzilla, trello)
- Proposition d’activités de team building
▪ Optimisation d’un script existant
- Redéfinition des structures utilisées (les schémas)
- Utilisation des transformations RDD/DF et inversement
- Vectorisation de tout le script (enlever les while, boucles…)
- Utilisation des actions et transformations spark (map, reduce…)
- Parallélisation de tous les objets utilisés
- Utilisation du mode cluster pour distribuer les calculs
- Optimisation de la consommation de la mémoire
- Utilisation de databricks pour le traitement des XML
▪ Configuration de la connexion aux fichiers HDFS sur le DataLake
- Gestion des droits d’accès
- Récupération des flux de données
- Importation et stockage des fichiers qui contiennent les opérations bancaires sur le DataLake
▪ Développement Spark (Intégration de 18 types d’opérations)
- Traitement et préparation des données massives
- Récupération des champs en utilisant les udfs (RIB, IBAN, adresse…)
- Configuration des paramètres de lancement (nombre de clusters, d’exécuteurs, mémoire…
- Elaboration d’un script d’anonymisation des données sensibles
- Ingestion des données dans des tables HIVE ORC
- Lancement des job Spark avec spark-submit en mode client et cluster
- Test de performances
▪ Elaboration de dashboards
- Recherche Unitaire sur les opérations
- Visualisation des flux des opérations émises et reçus et statistique descriptive
▪ Mise en production
- Contribution dans les recettes MOA et MOE
- Support et travail avec le socle BIG DATA pour la mise en production
- Elaboration des tests techniques et métiers et optimisation
ENVIRONNEMENTS: Python, PySpark, databricks, HIVE, ORC, Hortonworks, Talend Open Studio BD, Tableau

Projet 3 : Bouygues Construction- Chef de Projet/ Team Leader Data Scientist - 8 mois
Depuis 01/2018
Réalisations :
▪ Chef de projet et team leader Data
- Rencontre des différents clients et compréhension des besoins
- Proposition de solutions innovantes en se basant sur la compréhension du métier
- Choix des techniques et algorithmes nécessaires pour résoudre les problèmes
- Intervention et coaching en interne…
- Suivi, estimation et découpage des tâches en...

Voir le profil complet de ce freelance

Profils similaires parfois recherchés

CV Ingénieur data lake, Missions Ingénieur data lake, Ingénieur data lake freelance

Les nouvelles missions d'Ingénieur data lake

PARIS - Ingénieur Data / Ingénieur Cloud

SQL Server Data Big Data Azure Microsoft Power BI
ASAP
75 - PARIS
6 mois
Voir la mission

Développeur React Native Databricks

React Native Apache Spark SQL DevOps
ASAP
92 - Chatillon
6 mois
Voir la mission

Data Platform Enablement Engineer

SQL Data Python BigQuery
ASAP
75 - PARIS
365 jours ouvrés
Voir la mission

Data ingénieur/Architecte Data

Databricks Power BI
ASAP
93 - SAINT-DENIS
12 mois
Voir la mission

Développeur Java Spark Scala

Java Scala Apache Spark Adobe Spark
ASAP
75 - PARIS
12 mois
Voir la mission

Ingénieur DBA confirmé

Oracle POSTGRES PostgreSQL HashiCorp Terraform Ansible
ASAP
92 - PUTEAUX
35 mois
Voir la mission

Ingénieur DBA / DevOps (Cloud AWS)

Oracle POSTGRES HashiCorp Terraform DevOps CI/CD
ASAP
92 - PUTEAUX
36 mois
Voir la mission

Developpeur Salesforce Marketing Cloud 3-7 ans d'experience

Jira Confluence Salesforce Marketing Cloud
ASAP
44 - NANTES
6 mois
Voir la mission

Consultant FinOps Cloud

OpenStack Red Hat OpenShift Python Cloud AWS Data Lake
ASAP
75 - Paris
3 mois
Voir la mission

Data Engineer (Bruxelles)

SQL Python Azure Cloud AWS Databricks
ASAP
Bruxelles (Belgique)
6 mois
Voir la mission
Je trouve ma mission

Les derniers CV d'Ingénieur data lake disponibles

CV Ingénieur de développement JAVA/Python
Massinissa

Ingénieur de développement JAVA/Python

  • PALAISEAU
Java SQL Spring Boot Python TypeScript Angular DevOps Microservices Vue.js HashiCorp Terraform
CV Administrateur Bases de Données JAVA
Amor

Administrateur Bases de Données JAVA

  • AULNAY-SOUS-BOIS
Java Oracle SQL Server SQL PostgreSQL Unix Windows Linux ITIL
CV Product Owner, Chef de Projet
Genepirus Prince

Product Owner, Chef de Projet

  • PARIS
Agile Jira Scrum Confluence SQL Oracle Data
CV Data engineer
Hajar

Data engineer

  • CLERMONT-FERRAND
SQL Microsoft Power BI Transact SQL Python PySpark Azure Data Factory Azure Azure Synapse
CV Data Architect / Data Engineer
Yabir

Data Architect / Data Engineer

  • VILLIERS-SUR-MARNE
Python Talend Google Cloud Platform Azure Git Linux SQL BigQuery Docker C#
CV Architecte Technique et Applicatif
Ahmed Hassen

Architecte Technique et Applicatif

  • CERGY
Microservices WSO2 SOA RabbitMQ Amazon AWS Oracle SQL Server J2EE .NET Linux
CV Solution Architect
Ali

Solution Architect

  • NANTERRE
Oracle Java API RESTful
CV Data Engineer | Devops
Achraf

Data Engineer | Devops

  • BOISSY-SAINT-LÉGER
GitLab Databricks CI/CD HashiCorp Terraform PySpark Cloud AWS Jenkins Docker SQL Python
CV Architecte Cloud AWS / Ingénieur Cloud
Olivier

Architecte Cloud AWS / Ingénieur Cloud

  • FACHES-THUMESNIL
Cloud AWS Python Serverless
CV Chef de projet PROJECT MANAGEMENT OFFICE
Franck

Chef de projet PROJECT MANAGEMENT OFFICE

  • NOISY LE SEC
Project Management Office MS Project MDM Excel Oracle SQL Data Datacenter Java J2EE
Je trouve mon freelance