Apache Spark est un framework open source. Spark était initialement développé à par AMPLab. Apache Spark est une infrastructure de traitement parallèle qui permet d'exécuter des applications analytiques, en utilisant des machines en clusters.
Mettre en place un environnement d’analyse opérationnel des logs ELK
Rôle Ingénieur Big data
Activités réalisées ingestion les mesures de performances et de disponibilités de l’instance
établies dans le contrat avec le client (KPI) en exploitant les logs de
l’application avec logstash
Intégrer ces mesures dans un rapport mensuel exploitable et automatisé
avec KIBANA
Activités réalisées
Crawler les sites des annonces dans des fichier JSON
Nettoyage et transformation des données et extraire les statistiques avec
Apache Spark puis envoyer les statistiques aux analystes
Stocker et interroger les données dans MongoDB
Stocker les données textuelles des annonces dans Elasticsearch et faire la
visualisation avec Kibana
Créer un outil qui permet de chercher un mot dans tous les pages et les
sous pages d’un site avec scrapy et Django
Activités réalisées Crawler les pages Facebook (poste, comment, nombre de j’aime et de
partage), les jobs sur LinkedIn, les produits sur AliExpress, Amazon, les
bibliographies des artistes (NRJ, FNAC)
Projet PLATEFORME DE RECOMMANDATION COMMERCIAL
Activités réalisées Développement d’un package de classification hiérarchique avec les algorithmes génétiques
Développement d'une application web back office pour l'analyse et la prédiction des comportements clients et la génération des rapports d’analyse
Activités réalisées Implémenter des algorithmes de génération de paysage 3D exploitant les algorithmes génétiques.
Environnement RSTUDIO, R, APACHE SPARKActivités réalisées Développer un module de détection des visages et des objets.
Développer un module de reconnaissance des visages.
Développer un module d’analyse des mouvements et suivi des objets
Activités réalisées Résolution du problème complexe de réception de plusieurs demandes de
livraison. Le service développé permet au transporteur d’organiser ces
clients et de répondre aux nouvelles demandes en acceptant ou refusant tout en prenant en considération le facteur date limite de livraison et la date approximatif nécessaire pour la livraison calculer par le service tout en
prenant en considération les livraisons déjà acceptés.