Synthèse : Calcule des audiences en temps réel à partir des données de plus de 6 millions de
devices (décodeur, ConnectTV, OTT, Web, ..)
Mesure d'exposition aux publicités et aux émissions
Réalisation :
• Développement et maintenance d’une application de calcule d’audience en
temps réel, solution unique en France
• Mise en place de nouveaux projets de mesure d’exposition aux publicités et aux
émissions [plusieurs dizaines de Teraoctets de données] (ETL pipelines)
• Optimisation de l’architecture technique
• Mise en place un système de monitoring et d’alerting
• Conception d’une nouvelle architecture et migration de la plateforme
Synthèse : Développement d’un système permettant l’extraction automatique d’un ensemble
important de données issues de plusieurs sources, les structurer et les harmoniser de
manière à faciliter leur accès par un grand nombre de collaborateur, dans le respect
des confidentialités qui y sont attachées
Réalisation :
• Développement des scripts SQL (PyODBC).
• Développement des jobs d'intégrations ETL par Python/Pandas et historisation.
• Analyses complexes de données à grande échelle à l’aide des jobs PySpark
(Croisement, rapprochement, …)
• Mise en production des Jobs sur des serveurs locaux
• Animation de workshops avec autres services, recueil de besoin
• Maintien de la documentation (document de spécifications, cahier des tests,
• document du mode d’emploi d’installation et d’exploitation...)
Synthèse : Réponse aux besoins des clients au niveau de l’acquisition et la collecte de données
de façon automatisé. Contourner les restrions des serveurs en utilisant des stratégies :
rotation proxy, user agents, outils d’automatisation et autres
Réalisation :
• Développement des scripts de collecte de données, stockage et export.
• Développement des robots d’indexation (web crawler)
• Contourner les restrictions des serveurs comme Leboncoin, Seloger, PAP et autres
• Développement des scripts d’alimentation de contenu pour Facebook, Instagram,
Linkedin et autres
• Data Scraping avec des outils d’automatisation comme Selenium
• Rédaction des documents : cahier des tests, manuel d’utilisation
Synthèse : Réalisation d’une application Web pour la gestion du matériel, recueil des bugs
et des modifications souhaitées pour la réalisation de nouvelles fonctionnalités
Réalisation :
Poursuivre les améliorations en rendant la gestion du matériel : Intuitive et
pratique en créant un système de recherche par mot-clé, aussi bien avec
d’autres fonctionnalités adaptées aux exigences des techniciens du laboratoire.
• Recueille des besoins.
• Développement avec Python/Django.
• Ajout de fonctionnalités / correction de bugs.
• Recettes et mise en production.