Développement d’un API pour gérer la gouvernance des données.
Développement des scripts Glue pour traiter des fichiers des différents providers (Facebook, Youtube, Deezer.).
Extraction les IDE12 (identifiant d’œuvre musical entendu ou regardé) dans ces fichiers.
Construire une vision 360 en regroupant les données provenant des tous les providers dans un table pivot.
Stockage des données dans S3 et Elasticsearch
Visualisation des données dans Kibana et Tableau.
Documentation des différents scripts et processus développés dans Confluence.
Développer des flux Nifi pour exporter des fichiers excel GPS (gestion des planifications) de zone sécurisée vers HDFS
Développer des jobs Spark scala en utilisant IntelliJ pour transformer les données stockées dans HDFS en tables HIVE
Installation et configuration de Tableau Server 10.5
Développer un job Spark scala en utilisant IntelliJ qui lance plusieurs jobs Spark 1.6.2 en parallèle.
Etude de faisabilité de connecter Ceph avec Nifi
Installation et configuration de Hadoop sur Mesos
Ecriture des requêtes Impala et Hive sur l’ensemble des données
Ecriture des scripts Kafka (Producer & Consumer) en python et en scala pour gérer les sources productrices de données et consommateurs de données.
Stockage de données dans HDFS et ElasticSearch.
Installation et configuration de DC/OS
Déploiement d'une solution basée sur une méthode de système de recommandation afin de permettre à un site internet de voyage d'offrir des destinations personnalisées aux utilisateurs.
Stockage des données sur Hadoop (HDFS)
Intégration et manipulation des données sur des bases de données Apache Hive
Participation à l’intégration de la solution dans une application web service
Déploiement d'un algorithme Machine Learning sur Python.
Installation et configuration de HortonWorks sur Azure et découverte de l’écosystème
Stockage de données dans MongoDB
Ecriture des scripts Pig interrogeant ces données.
Développer des jobs Spark Scala.
Refonte de l’application SPEED pour les entreprises clients de Bouygues Telecom
Développement des procédures stockées et pour la même application en utilisant Oracle
• Projets :
Conception et développement d'une solution d'intégration SSIS (chargement des plusieurs flux .csv).
Développement et implémentation des calculs d'indicateurs commerciaux (atelier avec client et rédaction des fiches indicateurs).
Conception et développement des rapports SSRS (tableaux, graphiques, indicateurs).
Planification et abonnements SSRS.
Migration d’une application vers vb.net
• Projets :
Développement d'une solution de migration SSIS permettant l'alimenter d'un nouveau DataWarehouse en se basant sur un existant :
Mise en place d’une solution SSIS permettant :
-Le chargement (extraction) de 32 flux de donnée en Entrée (fichier csv et XML)
-La transformation des données (conversion de données, éclatement de fichier sur plusieurs tables
-Intégration des données dans le DTW en respectant les règles de gestion et les intégrité entre les différentes entités
-La traçabilité des traitements (Extraction, Transformation et intégration) et la gestion des logs et historique
-Gestion de rejet de données et de fichier en cas d’échec.
A3CT : accélérer l’utilisation des données au sein des unités commerciales des régions aux marchés :
Développer des différents Dags pour automatiser la réception des données de différents sources (BVM, FCS…) en utilisant Composer (Airflow).
Extraction et chargement des données dans BigQuery et CloudStorage.
Calculer les scores pour classifier les clients en utlisant DataProc, DataFlow et Spark.
Développer les abonnements PubSub.
Industrialiser les différents Use Cases du machine Learning
• Formation certifiante
Présentation Big Data : Présentation de l’écosystème Big Data du point de vue technique, économique, ainsi que les différents uses cases et métiers.
Introduction à Python : Comment utiliser et faire des programmes en python
Ecosystème Hadoop : Introduction très détaillée aux modules de l’écosystème Hadoop, HDFS, HIVE Ambari, YARN, concept du MapReduce, Pig et Hive.
Ecosystème Spark : Introduction très détaillée aux modules de l’écosystème SPARK, à scala, au RDD.
Scraping des données : Crawl et API, Open Data, pour récupérer de la donnée du Web. Parsing de données aux formats JSON et XML.
Bases de données NoSQL : Apprendre à stocker et requêter des données sur différents types de base de données (Cassandra, Hbase, MongoDB et Elasticsearch).
Machine Learning: Machine learning distribué avec Spark MLlib
Data Visualisation : Kibana et Power BI.
KAFKA : Introduction à Apache Kafka et au principe des systèmes de publish-suscribe-messaging - Installation et configuration d’apache Kafka - L'architecture d’Apache Kafka (brokers, topics, producers, consumers) -Manipulation d’opérations Kafka - Apache Kafka & Spark en vue du traitement en temps réel (Real-timeAnalytics) et le monitoring.
Projet d’équipe : (e-reputation des candidats présidentiels) Scrapping des données du twitter et Facebook et traitement (analyse des sentiments) en utilisant spark et python et Kibana pour la visualisation des résultats.
Obtention du certificat avec mention Très bien
• Projets :
Développement d’une application de classification des rapports
Développement d’une application de gestion des abonnements pilotés par les données.