Le Big data a connu, ces dernières années, un succès fulgurant. Des milliers d'entreprises y ont recours, chaque jour, pour améliorer leur prise de décisions et booster leurs performances. Pour faire face à ce besoin, de nombreux métiers se sont développés dans le secteur de la data intelligence artificielle. C'est le cas de l'ingénieur big data. Mais en quoi consiste précisément ce métier ? Quels en sont les tenants et les aboutissants ?
L'ingénieur en Big data est un spécialiste du traitement de données et des statistiques. Son rôle est de collecter, d'organiser de structurer la data pour la présenter de la manière la plus simple et la plus claire possible.
La première étape est de récupérer toute la data informatique. Une fois cette action réalisée, il la transforme pour l'adapter aux besoins de son entreprise ou de ses clients. Dans un troisième temps, il peut la mettre à disposition des data scientists pour qu'ils l'analysent. Il peut également réaliser lui-même cette partie selon ses compétences et le périmètre de sa fonction.
La data ingénieur se focalise surtout sur la production et le développement des données. En ce sens, c'est un développeur big data.
Il existe plusieurs voies pour accéder à ce métier. Il est possible d'opter pour une spécialité informatique en faisant un bac+5 dans ce domaine. Le mieux est d'ailleurs de faire sa formation dans une école d'ingénierie informatique. Une alternative est d'obtenir un Master ou un doctorat en statistique.
Dans tous les cas, il est important de bien connaître et de maîtriser les fondamentaux de la data science. En ce sens, il est utile et judicieux de commencer à s'intéresser au sujet le plus tôt possible dans son parcours.
L'ingénieur en Big data est surtout et avant tout un expert en informatique. Il doit avoir une solide culture digitale et se tenir au courant des dernières techniques utilisées. En outre, il faut qu'il soit à l'aise dans le maniement des bases de données. Le data ingénieur doit aussi maîtriser les principaux langages de programmation comme Python ou Java.
Il est également attendu qu'il maîtrise certains logiciels spécifiques. Enfin, le data engineer doit comprendre et parler un anglais technique propre à son domaine, connaître le monde de l'entreprise et être en capacité de communiquer, tant à l'oral qu'à l'écrit.
La journée commence souvent par une réunion avec les équipes pour fixer le cap. Ensuite, selon le degré d'avancement du projet, l'ingénieur va travailler sur le design ou sur la mise en production des données.
Il dialogue régulièrement avec les parties prenantes du projet pour s'assurer que les besoins sont bien respectés.
Voici donc les missions et les compétences des spécialistes de la Big data intelligence. Ce métier est multiple et offre des débouchés aux jeunes ingénieurs désireux de tenter une nouvelle aventure !
Appui data engineering au sein de l’équipe Usine Data Analytique pour la production DSI Group EDF :
● Gestion du RUN : appui des Data Scientists de l’Usine pour les appuyer sur l’utilisation des données et des outils du datalake au cours des use case.
● Gestion du BUILD : mettre en place les nouveaux outils, fonctionnalités permettant au Data scientistes de travailler sur les différentes étapes de la gestion du use case : DataCleaning, outils de séries temporelles, industrialisation... Il travaille de ce fait en étroite relation avec la DSIT, la R&D et les différentes maitrises d’œuvre de l’entreprise.
● Utilisation d’outillage DevOps et DataOps : afin de d’améliorer le temps de mise à disposition d’application de data science en production.
● Participation aux travaux transverses : permettant d’élargir les offres de service de l’Usine comme l’utilisation du cloud, la mise en place des concepts de DevOps, DataOps, MLOps...
Contexte : Au sein de l’équipe data Analytics pour la production
Interlocuteurs : Data scientistes, chef de projet, data analyste, data engineers , équipe opération , expert devOps …
Rôle : Appui Data Engineering :
● Tuning des job Spark des data scientistes.
● Conception et mise en place des architectures des chaines de traitement des données.
● Développement et mise des flux de donnée.
● Industrialisation des applications des data scientistes (conteneurisation, orchestration des routine via airflow …).
● Customisation des opérateurs Airflow.
Contexte : Dans le contexte de migration de son SI vers le Cloud Public Microsoft, la DSI IMA souhaite à migrer sa chaine décisionnelle du système on premise vers les services fournis par Azure .
Interlocuteurs : Deux Architectes Techniques, chef de Projet, équipe BI
● Participation à la conception de la chaine data driven decision IMA sur Azure .
● Intégration dans la chaine CI/CD pour l’industrialisation des Notebooks Databrick en utilisant Azure DevOps
● Organisation des ateliers de passage de connaissance avec l’équipe IMA.
● Mise en place d’un référentiel de validation des schémas.
● Implémentation des politiques RGPD IMA.
● Mise en place d’une de validation des schémas des donnée en mode streaming et Batch.
● Intégration de la chaine de traitement avec l’écosystème Azure.
● Mise en place d’un chaine de life cycle management des données dans le storage account .
Contexte :
Interlocuteurs : Data scientistes, équipe CRM ,experts text mining , équipe opération ,expert devOps …
Rôle : Data Engineer
● Migration des données de CRM Cloé vers Vega.
● Conception et mise une place d’une chaine d’alimentation d’un nouveau Datamart depuis le DATA LAKE.
● Assistance des équipes text mining dans l’industrialisation de leurs modèles.
● Documentation : rédaction des documents d’architecture technique et les spécifications technico fonctionnelles.
Contexte : Mise en production à venir d'un outil de supervision des flux d’acheminements..
● Conception et mise en place d’un Data Mart
● Analyse des flux d'acheminement des documents au sein d'un coffre-fort numérique
● Référentiel Client Unique (RCU) : migration des procédures stockées PL/SQL vers une solution portable et générique.
● Migration d’une chaine décisionnelle de SAS vers R/sparkLyr.
● Validation des architectures et optimisation des applications IT.
● Mise en place d’un cluster Big Data totalement virtualisé.
● Automatisation de la chaîne delivery.
● Benchmarking des solutions big data et rédaction des documents et bonnes pratiques d’exploitation.
● Développement d’une chaîne unifiée pour le décodage des flux d'équipements Télécom et la détection des fraudeurs