Le data scientist collecte et choisit les informations clients importantes pour l’analyse. Celui-ci indique aussi les méthodes de stockage et l'organisation des données.
D'autre part, le data scientist convertit et cartographie des informations d’usage produit à travers des dashboards accessibles à tous les collaborateurs. Il optimise donc la qualité et améliore les bases de données clients de la structure.
Aussi, le data scientist détermine les techniques de collecte de données à partir de bases de données de sources différentes. Ce dernier construit l’architecture d'un entrepôt de données décisionnelles. Par conséquent, le data scientist est chargé de maîtriser la qualité des données durant tout leur traitement.
Le data scientist implémente et garantit la modélisation statistique de la data. Il conçoit des scénarios prédictifs des habitudes clients.
Aussi, le data scientist optimise le ciblage des clients en se servant des algorithmes qu'il conçoit. Il examine et met en œuvre les solutions techniques les plus adaptées afin d’administrer de grands volumes d'informations.
En outre, le data scientist met en place des algorithmes de mise en évidence des opportunités de marché. Ce dernier contrôle la cohérence des bases de données.
Le data scientist accompagne également l’entreprise dans le développement d'actions créatrices de valeur.
Le data scientist met en place et optimise les approches CRM de la relation clients. Celui-ci optimise la performance des plateformes de contact clients.
Par ailleurs, le data scientist a pour mission d'adapter le ciblage des campagnes de publicité web. Il étudie également les taux de rétention client et les composants y contribuant.
D'autre part, le data scientist évalue le ROI de l’ensemble des campagnes digitales de la structure. Ce dernier élabore et ajuste les scores d’appétence, dans le but de transmettre au service marketing les statistiques importantes pour l'établissement d’études de marché.
Le data scientist participe à la mise en place de l'approche stratégique de la société. Celui-ci étudie la totalité des données des ventes pour imaginer des algorithmes pertinents d’aide à la décision.
En outre, le data scientist contribue à la définition des indicateurs de performance commerciale de l’entreprise. Il donne par conséquent au directeur commercial des outils décisionnels pour la conduite des campagnes de prospection.
D'autre part, le data scientist réalise des sondages statistiques pour les clients internes. Il peut aussi conduire les ateliers d’expression des besoins internes et écrire les cahiers des charges.
Par ailleurs, le data scientist rédige la spécification des besoins à destination de la maîtrise d’ouvrage. Celui-ci détermine les outils de reporting multidimensionnel. Aussi, le data scientist expose les résultats des enquêtes effectuées aux clients et forme les équipes aux outils informatiques.
Le data scientist effectue une veille sur les avancées technologiques d’analyse des données. Ce dernier expérimente de nouvelles solutions d’analyse des informations. Par conséquent, le data scientist met en place les nouvelles techniques de gestion de données.
Le data scientist anime les réunions, anime les interventions des collaborateurs. Ce dernier certifie le recrutement des collaborateurs.
D'autre part, le data scientist contrôle le budget et évalue les dépenses liées aux prestations. Il définit les choix méthodologiques des interventions.
Le data scientist doit avoir une parfaite connaissance des algorithmes d’apprentissage automatique ainsi que des outils de data management.
De plus, le data scientist doit avoir une bonne connaissance des outils HADOOP. Il doit aussi appréhender les bases de données SQL et no-SQL.
Finalement, le data scientist doit avoir une bonne connaissance de l'intelligence artificielle. Il doit donc avoir des connaissances approfondies en marketing.
Le data scientist doit disposer d’un sens de l'analyse aiguisé dans le but d’appréhender les questions financières de la société. Il doit également disposer d’un sens de la rigueur appuyé afin d’assurer la précision des analyses réalisés.
Aussi, le data scientist doit posséder une bonne sens de l'organisation dans l'objectif de structurer ses techniques d’intervention. Il doit aussi acquérir un goût particulier pour le service pour augmenter la satisfaction du client.
En outre, le data scientist doit avoir d’excellentes compétences en communication dans l'objectif de convaincre ses interlocuteurs. Il doit être pédagogue afin de faire comprendre sa méthode de travail aux collaborateurs.
D'autre part, le data scientist doit être curieux dans le but de suivre les nouveaux outils. Il doit également développer un goût prononcé pour les statistiques puisque les volumes de données sont importants
Finalement, le data scientist se doit d'être force de proposition dans l'objectif de faire des préconisations aux équipes marketing. Il doit avoir le sens des affaires pour localiser les occasions de marché.
Le data scientist doit ainsi être en mesure de faire preuve d’écoute afin de récolter avec rigueur les informations de la clientèle.
Source : https://www.apec.fr/
Projet : Détection d’anomalies dans les transactions des trades
▪ Collecter les données de plusieurs sources (csv, Jason, parquet) à partir du datalake (2 milliards de
points fichier)
▪ Explorer les données et mettre en place d’une méthode automatique et efficace de préparation des
données qui optimise les analyses statistiques et qui réduit énormement le temps d’exécution des
algorithmes d’apprentissage automatique
▪ Modélisation et implémentation de 10 algorithmes de clustering pour la détection d’anomalies
▪ Introduction d’une nouvelle mesure de similarité définie par l’utilisateur et choix des meilleurs
hyperparameters par la méthode grid-search
▪ Analyse des résultats de clustering results and filtrage des points ayant une probabilité élevée
d’être une anomalie.
▪ Automatisation des processus précédents (pipe)
▪ Communication avec les métiers au sein de l’entreprise pour valider les outliers qui sont vraiment
des anomalies
▪ Validation du modèle par les métiers et passage en production
▪ Audit de la base de données existante et création d’une nouvelle architecture plus solide en
utilisant MYSQL Workbench;
▪ Extraction, Transformation et Chargement des données vers des outils de visualisation (Tableau
and QlikView) en utilisant Python et Talend (création d’un Data Wharehouse pour automatiser le
processus ETL);
▪ Développement d’algorithmes de machine learning algorithm pour commander et prédire le
comportement de la voiture autonomme utilisant PyCharm..
▪ Design et implémentation d’un parking intelligent:
▪ Recherche, planification du projet et design du parking (Gantt, Doors, UML)
▪ Rédaction des specifications, production des données, collection et pré-processing des données
(MYSQL, SPARK, Python)
▪ Introduction d’un nouveau modèle de reconnaissance vocale speech (développé durant mon stage
de fin d’études) et amélioration par un « language model » et meilleurs choix des
hyperparameters.
▪ Entraînement d’un reconnaissant vocale end-to-end sur une base de données propriétaire
▪ Mise en place d’une nouvelle architecture qui combine un « Convolutional Neural Network
(CNN) » et un « Deep Recurrent Neural Network (DRNN) »
▪ Prouver que le modèle a appris plus rapidement et a donné des meilleurs résultats (en terme de
« phonemes test error rates (PhERR) » grâce à sa capacité pour généraliser)
▪ Réussir 19.1% PhERR avec un modèle composé de 3 « convolutional layers », après avoir été à
22.3% sans convolution (dépassement de l’état de l’art)
Projet : Prédiction des pannes sur une unité de raffinage
▪ Collection de données capteurs à partir d’un système de stockage propriétaire.
▪ Modelisation de la topologie défaillante en collaboration avec les trades
▪ Modélisation d’une panne(causes et conséquences).
▪ Mise en place d’un modèle de prédiction de pannes
▪ Développement d’une interface graphique d’alerte et d’un simulateur de réparage « Upset »
(optimisant le fonctionnement d’une unité).