Expérience professionnelle
POLICE BELGE
Tech Lead DataOps Engineer – 6 mois
Dans le cadre de la mise en œuvre d’une plateforme Big Data Cloudera 7.6.7 pour le projet i-Police les missions assurées par Sory ont été les suivantes :
• Conception, mise en œuvre et gestion d’une infrastructure Hadoop évolutive et sécurisée.
• Utilisation des outils d’Infrastructure as Code (IaC), tels que Ansible, pour automatiser le déploiement du cluster.
• Développement et maintien en condition opérationnelle des pipelines CI/CD pour une livraison logicielle efficace et automatisée.
• Mise en œuvre des meilleures pratiques en matière de contrôle de version, de branchement et de gestion des versions.
Environnement Technique : Ansible, Redhat Linux 8, Git, Gitlab CI, Cloudera, PostgreSQL.
Méthodologie : Scrum et DevOps.
BNP PARIBAS
DataOps Engineer – 6 mois
Au sein de l’équipe Analytics Consulting, dans le cadre de la mise en place d’une culture MLOps, BNP souhaitait intégrer le framework Quantexa basé sur Spark, afin de mettre en œuvre une application de détection de blanchiment d’argent dans le commerce (AML Trading) et la Fraude. Sory a réalisé les tâches suivantes :
• Installation de Spark 3.2.3 et migration de Spark 2.4.6 vers 3.2.3 sur Kubernetes.
• Conception et implémentation d'un processus ETL dans Spark pour migrer des données depuis S3 avec orc/parquet/fichier texte.
• Création d'un cluster Spark autonome à partir d'une image de base Docker.
• Conception et implémentation d'images docker, en utilisant Docker, Docker-compose et Kubernetes.
• Configuration du cluster Spark mutualisé et optimisation des jobs.
• Configuration de S3 avec Spark Cluster.
• Conception et mise en œuvre d'une solution et d'un utilitaire de recherche en temps réel pour visualiser les données ELK.
• Amélioration de l’approche micro-services.
Environnement Technique : Docker, K8S, Helm, Ansible, Tower, Kustomize, ELK, ArgoCD, Bitbucket, Git, CI/CD.
Méthodologie : Scrum et DevOps.
Banque de France • DataOps Engineer 04/2022 à 01/2023
Contexte : Au sein de l’équipe production Sonata InfraOps et Big data analytics, participation à la
migration des données de Hortonworks HDP vers Cloudera CDP
Projet : Migration HDP vers CDP
Responsabilités :
● Travailler à l’affinage du cycle de vie du développement logiciel pour répondre aux besoins
d’infrastructure des pratiques DevOps
● Écriture des scripts playbooks d’ansible et ansible-galaxy scripts pour mettre à jour et configurer
automatiquement l’infrastructure système afin d’économiser 30% de temps d’administration et
Utilisation de ansible/AWX
● Intégration continue et mise en œuvre de la livraison continue (utilisation d’Autosys avec des
scripts shell pour automatiser les tâches)
● Installation de Anaconda
● Productionisation code spark avec python et pycharm
● Commissioning et decommissioning d’un nœud et d’un service sur Hadoop Ambari
● Sauvegarde et restauration des index sur Elasticsearch
● Formation Airflow, Kubernetes, Helm, ArgoCD
● Migration de données de HDP vers CDP
Environnement : Hadoop Ecosystem, Ansible, Autosys, ELK, Shell, PySpark, Jupyter, Hive, SQL, Airflow,
Docker, Git, Zeppelin
MONEXT • DataOps Engineer 05/2021 à 03/2022
Contexte : Au sein de l’équipe Infra et réseaux, j’ai travaillé sur la construction, le monitoring et
l’automatisation de l’infrastructure Cloud utilisée par l’équipe Analytics
Projet : Migration de données on-premise vers le cloud AwS
Responsabilités :
● Data Engineering Solution sur Cloud et ETL pipelines en utilisant les Services AWS Analytics comme
(IAM, Glue, EMR, S3, Lambda, boto3, Redshift, Dynamodb, Cloud9, Kinesis,…)
● Terraform sur AWS avec SRE & IaC DevOps
● Création, configuration et déploiement des images Docker
● Gestion et création des déploiements applicatifs via Jenkins, Gitlab CI/CD et Helm Chart
● Gestion des configurations (Redhat, middleware : Tomcat, Apache, HAProxy, Ngnix, …) via Ansible
● Support N3 sur ces composants techniques
● Administration du cluster Elasticsearch, Kafka, PostgreSQL, Spark
● Gestion de la PKI,
● Suivi et monitoring de l’environnement Kubernetes
● Développer des algorithmes deep learning et machine learning avec python
Environnement : AWS, Kubernetes, Helm, Git, DOCKER, GitLab CI/CD, Jenkins, Shell Bash, Ansible,
Terraform, Grafana, FastAPI
ORANGE • Devops & InfraOps Engineer 08/2020 à 04/2021
Contexte : Équipe de production sur le projet BDF (Big Data France)
Projet : Migration des données vers la plateforme hortonworks 2.6.5 vers 3.1.0
Responsabilités :
● État de l'art sur la problématique Big Data
● Correction et évolution de la stratégie en matière de droits de sécurité au sein de la plateforme
avec ACL, Kerberos
● Examiner le code des développeurs avant les fusions
● Traitement des tickets d'incident
● Organisation des réunions pour discuter des problèmes techniques
● Migration des services de redhat 6 vers 7
● PoC : Data pipeline engineer avec GCP (Google Cloud Platform), construire un ETL dataproc,
bigquery, DBT et compose
● Rédaction de la documentation technique pour les nouvelles versions
Environnement : Hadoop ecosystem, APIs, Outils DevOps (Jenkins, Ansible, Git, Docker, etc…), Shell, GCP
(Google Cloud Platform)
La Poste • DataOps Engineer 08/2018 à 07/2020
Projet n°1 : Architecture / Migration / Automatisation
Contexte : Mise en place de la nouvelle architecture réactive avec l’équipe des data engineer. Migration
des applications de legacy vers architecture archi réactive (micro-service)
Responsabilités :
● Administration du cluster Cassandra 3 et migration des données Cassandra de 2 à 3
● Upgrade the Spark Cluster 2.1.0 to 2.4.3 and Kafka Cluster 0.1.0 to 2 .1.0 // Upgrade the ELK Cluster
(ElasticSearch 6.3.0 to 6.8.0)
● Recherche de nouvelles techniques statistiques et efficaces pour résoudre les problèmes liés aux
business
● Intégrer des modèles analytiques développés par les ingénieurs datas dans des pipelines de
données
Environnement : Ansible, Jenkins, Docker, Git, Gitlab CI/CD, Consul, HAProxy, K8S, Cassandra, ELK, Kafka,
Spark, Grafana, Prometheus, PostgreSQL
Projet N°2 : DevOps Engineer
Contexte : Concevoir et mettre en œuvre les outils d'automatisation pour la configuration de la plateforme afin d'accélérer le déploiement. Au sein de l’équipe chargée de la création et de la maintenance
des rôles Ansible pour automatiser la configuration ; je travaillais selon la méthodologie de cadrage Agile
(SCRUM) et réalisais les revues de préparation de la production pour le client, tout en m’assurant que
leur service est hautement disponible, évolutif et résilient.
Responsabilités :
● Mise en place des mécanismes de surveillance et d'alerte solides
● Aide à la mise en place des « best practices » en matière de dimensionnement, de journalisation,
de surveillance et de sécurité
● Travail en étroite collaboration avec les équipes d'ingénierie backend et frontend
● Programmation système avec bash scripting & python
● Veille technologique concernant les derniers développements en matière de systèmes distribués
et de cloud
Environnement : Redhat Linux 7, Ansible, Ubuntu 16, Jenkins, Git, Vagrant, SonarQube, Nexus, Solr,
Grafana, MySQL, Docker (MicroServices)
BOUYGUES TELECOM • Ingénieur de production UNIX 03/2017 à 08/2018
Contexte : Suivi des applications métier et des services en production principalement basés sur la
plateforme Big Data stratégique
Responsabilités :
● Traitement des tickets d'incident ainsi que des appels client,
● Réunions avec les différentes parties prenantes pour discuter des problèmes techniques
● Prise en charge des déploiements de système de production tout en assurant la conformité aux
SLAs
● Identification et correction des risques pour les KPIs systèmes critiques et non critiques
● Utilisation de SQL pour manipuler les données dans datawarehouse (Teradata & Oracle)
● Rédaction et exécution de scripts sur la base de données pour les rapports ad hoc
Environnement : Solaris, Teradata, Vtom, Oracle (SQL/PLSQL), Python, Cloudera (Hadoop), Tableau,
SVN, Git, Jenkins
EDF • Data Engineer 09/2016 à 02/2017
Contexte : Au sein de l’équipe R&D, mise en place des processus de nettoyage de données provenant
de différentes sources et correction des chaînes par l’équipe MCO.
Projet eDMA : centralisation des données produites par les processus métier du SI pour les clients « Pro
& Entreprises ».
Responsabilités :
● Conception et construction des pipelines de données pour intégrer, normaliser, nettoyer et publier
des données
● Collecte et surveillance des KPIs (disponibilité, temps de réponse, temps de déploiement) pour
vérifier le bon respect des engagements au regard des SLAs.
Environnement : Redhat Linux 7, Oracle (SQL/PLSQL), Hortonworks (Hadoop), Tableau, SVN, Git et
Jenkins
DOOPERA • DataOps Engineer 03/2016 à 08/2016
Contexte : Déploiement automatisé d’une plateforme Analytics et Big Data | Data Lake.
Projet : Extraction des données marketing via l’API Twitter afin d'analyser les données , faire des ciblages
et les injecter dans Hadoop.
Responsabilités :
● Architecture Big Data :
o Cadrage et architecture de référence
o Architecture de multi-noeuds d’un Cluster Hadoop (YARN, Zookeeper, Hive, Hbase,
Spark) and Edge node via Ambari sur Amazon WS
o Architecture et Implémenter un script playbook auto-scaling pour l'automatisation sur
EC2
● Solution Analytics :
o Implémentation d’une solution en temps réel de recherche ainsi l’utilité de visualiser
des données (Logstash, ElasticSearch, Kibana)
o Automatisation des commandes par Ansible / Mise à disposition de données pou...