Le Data Scientist freelance est un responsable de la gestion et de l’analyse Big Data. Ce spécialiste des programmes informatiques, des statistiques et des chiffres traite les données d'une entreprise afin d'en extraire les informations pouvant l'aider dans sa prise de décisions. Il s’agit donc d’un poste à haute responsabilité, nécessitant une éducation de haut niveau et surtout des prédispositions naturelles. Découvrez dans cet article les compétences indispensables pour travailler en tant que freelance Data Scientist.
En freelance, le Data Scientist doit maîtriser les fondamentaux de Data science. Plusieurs débutants font l’erreur d’appliquer des méthodes d'apprentissage automatique sans comprendre les bases de ces méthodes.
C'est une erreur. En tant que freelance Data Scientist, vous devez pouvoir différencier le deep learning et le machine learning. Vous devez également connaître les outils les plus utilisés. Finalement, le freelance Data Scientist sait différencier les problèmes de classification et de régression, et l’apprentissage non supervisé ou supervisé.
Le travail de Data Scientist en freelance requière la maîtrise un langage de programmation au minimum. Python est le langage informatique le plus couramment employé, il peut toutefois être remplacé par Java, R, Julia, C++ ou Pearl.
Python est généralement privilégié parce que c'est un langage généraliste avec plusieurs bibliothèques dédiées à la science des données. R est le langage dédié à la visualisation de données et à l’analyse statistique. Julia regroupe le meilleur des deux mondes et semble être plus rapide.
L'apprentissage automatique est une compétence différenciant véritablement le Data analyst du Data Scientist. Les informaticiens l'utilisent pour créer les modèles prédictifs, qui se basent sur des données du passé afin de prédire les futures tendances.
Les divers algorithmes de machine learning permettent de résoudre plusieurs problèmes. En qualité de Data Scientist freelance, vous devez connaître le code de chacun de ces algorithmes, mais notamment la façon dont fonctionnent ces algorithmes.
Ainsi, vous pouvez opter pour le modèle correct en fonction des problèmes à aborder. Vous pouvez également configurer chaque hyper-paramètre et réduire les erreurs du modèle.
Le Data Scientist freelance doit être à l’aise en manipulant et en analysant les données. Il doit pouvoir manipuler les données, les nettoyer et les mettre dans un format approprié à l’analyse. Le traitement de données est une étape importante pour simplifier une analyse de données et améliorer les résultats.
Quant à l’analyse de données, elle a pour objectif d’apprendre à base de données. À cet effet, le Data Scientist python utilise Pandas, SQL ou Excel. Il s'agit du travail d’un analyst Data Scientist. En utilisant l'apprentissage automatique, ce travail de Data Scientist freelance va plus loin.
Si un Data analyst indépendant a aussi pour mission l'exploitation et l’interprétation des données, un Data Scientist indépendant, a lui une vision plus globale. Le travail du Data Scientist freelance a un impact direct sur l’amélioration d'une activité globale d'une société.
Les missions du Data Scientist :
EXPÉRIENCE PROFESSIONNELLE
D’Oct. 2019 à ce jour Data Scientist/ Data engineer
La Banque de France
SAS to R : Projet de migration des traitements SAS vers R. Au sein d’une équipe de 3 personnes avec
l’utilisation de méthodologie Agile.
Mise en œuvre
Participation aux travaux de conception et modélisation des données dans le DATALAKE
Accompagnement des utilisateurs au travers d’animation de travaux pratiques et de formation
La diffusion de quelques articles dans la communauté R de la Banque de France
Gestion de la relation utilisateur (statisticien) sur R et BigData
Conception/ Développement/ Recette/ Suivi de production
Environnement technique : R project, Jira
D’Avr. 2018 à Aout.2019 Data Scientist
Groupe Saint-Gobain
Saint-Gobain Distribution Bâtiment France (SGDBF)
Projet Vision 360° : Projet marketing de construction d’une application donnant une vision 360° du
client (Customer Value, Segmentation, Analyse des paniers). Au sein d’une équipe de 4 personnes
avec une initiative de mise en place d’une méthodologie Agile.
Mise en œuvre
Recueil des besoins
Études des demandes auprès du client
Analyse de faisabilité
Rédaction des spécifications fonctionnelles et techniques
Prise en charge du développement de scripts R/python (Arbre de décision XGBoost)
Création des datamarts pour chacun des thèmes (Customer Value, Chiffre d’affaire,
Segmentations, Analyse des paniers, Analyse par type de client, …)
Tests unitaires
Accompagnement à la recette métier
Mise en production des thèmes
Industrialisation du modèle Data science.
Environnement technique : Datalake Cloudera Data Science Workbench, R project, Python,
Pyspark, Hue, Hive, Impala, squirrel sql, dollar Universe, Jira
Formation Text Analytics : théorie et pratique
Mise en œuvre
Rédaction du support de la formation
Préparation des exercices et des exemples d’application
Animation des ateliers de formation
Environnement technique : IBM SPSS Modeler, IBM SPSS Text Analytics
Mars. 2018 Data Scientist
Air France
Projet POC d’avant-vente : Affectation automatique des mails aux différents services concernés
Mise en œuvre
Analyse textuelle,
Création du dictionnaire
Catégorisation des verbatims
Environnement technique : IBM SPSS Text Analytics
De Janv. 2018 à Fév.2018 Data Scientist
Saint-Gobain
Projet benchmark des solutions Data Science : Comparaison et analyse des outils data science afin de
choisir l’outil le plus adapté à l’environnement Big Data existant
Mise en œuvre
Comparaison de la performance des outils selon une grille de critères requis
Reproduction des flux métiers dans chacun des outils testés
Animation des ateliers avec les métiers et transfert des connaissances sur les outils
Environnement technique : DATAIKU, IBM SPSS Modeler, SAP HANA studio
De Déc. 2017 à Mai. 2018 Data Scientist
Edifixio
Projet interne de Data Science : Au sein d’une équipe de 5 personnes (Collaborateurs indiens), création
d’une application qui analyse les réseaux sociaux : typologie des publications gagnantes sur Facebook,
recommandation sur la rédaction des publications (inclut l’analyse de la concurrence)
Mise en œuvre
Pilotage des équipes en Inde + management d’un collaborateur data scientist (suivi
hebdomadaire, réunions, estimations des tâches, chiffrage)
Scraping des publications sur Facebook et twitter
Analyse exploratoire des publications
Étude de différents modèles de data science
Création d’un dashboard (R shiny) qui permet d’analyser les publications Facebook
Configuration d’un serveur R shiny et mise à disposition de l’application (adresse IP publique)
avec des droits d’accès
Environnement technique : R project, R shiny, IBM SPSS Modeler, IBM SPSS Text Analytics
De Oct. 2017 à Déc 2017 Data Scientist
SMCP
Projet segmentation clients : Répartir les clients dans des segments afin de lancer des campagnes
marketing
Mise en œuvre
Segmentation des clients
Analyse du parcours client
Environnement technique : R project
De Oct. 2016 à mars. 2017 Data Scientist
Rexel
Projet Modélisation : Modélisation des ruptures de stock
Mise en œuvre
Test de plusieurs modèles et étude des solutions
Création d’un nœud SPSS basé sur un modèle statistique
Environnement technique : R project, IBM SPSS Modeler
De Fév. 2016 à sep. 2017 Data Scientist
Leroy Merlin
Projet Vision 2025 : Au sein d’une équipe de 3 personnes, détection des principaux axes de
changement dans la stratégie de l’entreprise en 2025 en se basant sur les réponses des collaborateurs
au questionnaires proposés par l’entreprise.
Mise en œuvre
Analyse textuelle, création des dictionnaires, catégorisatio...