Datacap est une solution éditée par IBM. C’est une solution de dématérialisation de documents.
Centralisation et traitement des données massives provenant des fermes solaires, éoliennes, centrales biogaz et barrages
hydrauliques de natures différentes (binaires, structurés, et semi-structurés) en mode batch, streaming et en autoloader.
• Manipulation des tables delta afin de standardiser et mettre en format les données
• Optimisation des workflows Databricks : Traitements des batchs en mode CDC, Utilisation des "Pools" de machines afin
d’optimiser la gestion de la puissance de calcul
• Automatisation des jobs en Terraform
• Mise à disposition des données et interfaçage des différentes technologies (Databricks, ADX, PowerBI)
• Participation à la modernisation de l’infrastructure du projet
• Optimisations des coûts des workflows Databricks (FinOps)
Collaboration avec des clients de renommés : Vinci Energies, ONEE, YNNA Holding, SAR.
• Centralisation des données de Holding à plusieurs filliales et intégration de leurs ERPs (SAP,SAGE) vers un entrepôt de données
cloud afin d’automatiser la génération des rapports d’activités et effectuer un ensemble d’analyses prédictives.
• Développement d’une plateforme de commerce pour l’étude de l’attrition, segmentation et profiling de la clientèle et prédiction
de l’evolution de la demande.
• Mise en place d’une solution Big Data (Apache SPARK) pour le calcul distribué des KPIs chez l’opérateur national de l’eau
potable
• Traitement des documents numérisés, extraction des données via OCR et classification du contenu avec NLP et RegEx.
• Conception et modélisation d’une solution basée sur l’IA pour la mise en correspondance de schémas base de données.
• Développement de module de lecture des fichiers CSV complémentaire à IBM Datacap.
Projet de fin d’études :
• Développement, surveillance, documentation et maintenance de pipelines de données ETL pour la centralisation des souscriptions
de réassurance (160+ pays) puis injection dans des bases de données SQL et MongoDB.
• Développement de modules Plug-and-Play pour des pipelines de données suivant le besoin fonctionnel.
• Analyse du marché de restauration et de la zone géographique cible et de ses caractéristiques démographique.
• Implémentation d’un système de recommandation et d’un modèle de prédiction du nombre de visiteurs pour une cantine
allemande afin d’augmenter les profits et de réduire le gaspillage alimentaire.
• Développement d’une application web pour déployer le système de recommandation, le modèle de prédiction du nombre de
visiteurs et le tableau de bord Power BI.