Médaille d’or hackathon BNP CIB & BNP Securities Services. Thème : IBM Cloud.
⪠Développement & déploiement d’une application web sur le cloud IBM avec Kubernetes &
chaîne DevOps.
o Installation et maintenance des plateformes de développement pour les data scientists et data
ingénieurs : MapR versions 5 & 6. JupyterHub, Rstudio Server, Gitlab. Maintenance/monitoring d’un
serveur Dell PowerEdge 4 GPUs Tesla V100.
o Conception des architectures pour des produits Machine Learning/Intelligence Artificielle :
⪠choix de frameworks (pour le développement des APIs et pour le Machine Learning),
⪠choix d’algorithmes et de stratégie de traitement de données.
o Projet WAVE (E-Liquidity) : PySpark et ElasticSearch pour l’intégration, l’indexation et
l’extraction des données de trading (transactions des assets/securities).
o Construction d’un datalake pour l’équipe Data avec PostgreSQL, MongoDB.
o Projet Client Risk View (en production) : Optimisation des requêtes. Réduction du temps de
requêtes de 1h ou plus à environs 20 secondes grâce au changement de technologie.
o Projet Smartchaser (en production) : prédiction des étapes à venir sur la vie d’un trade grâce
aux modèle de Machine Learning qui sont exposés via une API Django (+ Gunicorn + Celery +
Redis).
o Projet Classification des e-mails (en production, en collaboration avec BNP Paribas CIB, Paris
19e
) : modèles de traitement de langage naturel industrialisés sous forme d’API (Flask) avec une
solution de monitoring de l’usage avec l’aide de ElasticAPM, Kibana.
o Développement d’une plate-forme web d’expérimentation/démonstration de différents axes
d’application du traitement de langage naturel : chatbot, génération de texte, résumé de texte,
question/réponse.
Solution Big Data pour une procédure de vente automatique des données historiques de
trading en provenance de différents marchés (CME, LES, CBOT, EUREX, etc.).
o Spark/Scala avec la distribution MapR pour le pré-traitement de données, l’intégration et
l’extraction.
o ElasticSearch pour l’indexation et des requêtes rapides des méta-données.
o Développement d’un démon pour des tâches récurrentes/périodiques.
Maintenance des plate-formes de développement pour les Data Scientists (Cloudera Hadoop
distribution, JupyterHub).
o Spark/Scala, PySpark, Hive, Impala pour le traitement, l’intégration et l’extraction de données.
o Traitement de langage naturel et Machine Learning (Scikit-Learn, SparkML) pour la classification
et la détection des erreurs dans les offres d’emploi.
o Projets en production : détection de SIRETs faux dans les annonces d’emploi, classification des
professions, détection des mauvaises professions (métiers) affectées dans les annonces
Etude de faisabilité : Analyse de logs pour les systèmes d’angiographie Discovery IGS 7xx and
5xx pour but d’améliorer la conception pour une meilleure expérience utilisateur.
Migrations Azure vers AWS ; BitBucket vers Azure DevOps et GitHub.
o Manipulation/intégration de données de multi-sources avec AWS Lambda, AWS Glue + PySpark ;
Azure Service Bus, AWS SQS, Confluent Kafka ; DataBricks (Delta Live Tables, PySpark).
o CI/CD avec Azure DevOps et GitHub Actions.
o Algorithmes de calculs de score de conduites (Python).
o Algorithmes de détection des utilisations frauduleuses de carburant (Python).
o Enrichissement de données avec des calculs d’agrégation (DataBricks, PySpark).
o Exposition des données de transactions (CardPro & Recharge électrique) via des APIs Flask &
FastAPI (Gunicorn, Uvicorn) reposant sur l’API DataBricks avec l’utilisation de Load Balancer et Azure
API Manager ou AWS API Gateway.
o Intégration de nouveaux sources/fournisseurs de données télématiques (via différents outils : APIs,
Confluent Kafka, Azure Service Bus, AWS SQS, Kinesis.
o Base de données : Neo4j, InfluxDB, SQL Server, MongoDB.
o Systèmes de stockage : AWS S3, Azure Blob Storage.
o Monitoring & dashboard : Grafana (InfluxQL et Flux), Azure AppInsight, AWS CloudWatch.
o Interface de monitoring de l’état des boîtiers télématiques avec Django.
Développement des algorithmes de reconnaissance de formes.
• Langages: C++, Python, Fortran, Shell.
• Technologie de la grille informatique pour le traitement de données de gros volumes
Recherche & Développement d’un calorimètre de très haute granularité pour le futur accélérateur
ILC. Simulation, méthode Monte-Carlo & optimisation de la conception de détecteurs.
• Développement des algorithmes de reconnaissance de formes pour la détection des particules.
• Technologie de la grille informatique (Grid computing) pour le traitement de données de gros
volumes, jusqu’à 3000 CPUs par utilisateur
Mesure des processus physiques avec le traitement de gros volumes de données.
• Langage : C++, Fortran, Python, Shell pour des calculs mathématiques/physiques avec la
technologie de la grille informatique pour le traitement de données de gros volumes.