Consultant Big Data/ DataOps
AMF &ndash Paris &ndash Freelance
10/2021 -
Dans le cadre d'une nouvelle modernisation des plateformes Big Data et le maintien en condition de
l'existant. On a mis en place des nouvelles Plateformes Big Data en CDP. Suite à ce positionnement ,
on a migré les veilles technologies, les données, les applications, configurations, les rubriques des
sécurité et l'accompagnement des développeurs sur les différents environnements.
Taches :
BIG DATA:
&bull Administration HortonWorks 2.6.5.
&bull Mise en place la nouvelle plateforme CDP.
&bull MCO des plateformes HDP et par suite CDP.
&bull Identifier, proposer et définir des actions d'évolution et d'amélioration de service.
&bull Tuning de performance YARN, MAPREDUCE2, TEZ, HIVE et HIVE ON TEZ.
&bull Mise en place de Kerberos.
&bull Activer les briques sécurités : TLS/SSL, Hadoop ACL, Knox et Ranger.
&bull Assurer l'expertise en accompagnant le niveau 3 lors de la résolution d'incident et la définition des fiches consigne.
DevOps:
&bull Automatisation des taches récurrentes via Ansible.
&bull Développement python à l'usage linux.
&bull Administration Linux (Red Hat).
&bull Documentation et formation des équipes interne.
Environnement technique :
&bull CDP7.1.7, HDP 2.6.5, RedHat 6&7.
&bull Ansible, GIT, GitLab.
&bull Services Big Data: Zookeeper, Hdfs, Yarn, MR2, Hive, Tez, Spark 2.X/3.X, Ranger, Sqoop, hive_on_tez,
Solr, Knox, HUE, Kafka, HBase, Phoenix.
&bull PyCharm,intellJ, Putty, MobaXtrem, WinSCP, VisualStudio
&bull YAML, JSON, JINJA2, Script Shell, Python.
&bull LDAP, Active Directory, FreeIPA
CONSULTANT BIG DATA/DEVOPS/CLOUD
BRED BANQUE - Paris
-
Dans le cadre d'une nouvelle modernisation des plateformes Big Data et le maintien en condition de l'existant. On a mis en place des nouvelles briques de sécurité, l'automatisation des tâches avec Ansible et l'accompagnement des développeurs sur les différents environnements.
IIS/Cloud
&bull Monter la version d'IIS de 11.5.1 à 11.7.1, migrer les métadonnées d'IIS vers WKC (Cloud IBM, Watson)
&bull Administration HortonWorks 2.6.2.
&bull Developpement des scripts PowerShell qui permet d'activer Kerbeors pour tous les jobs DS (via dsx).
&bull Suopport niveau 3 en travaillant avec l'éditeur IBM
BIG DATA:
&bull Réaliser des études autour de solutions et définir les architectures/solutions Big Data à mettre en &oeliguvre.
&bull Tuning de performance YARN, MAPREDUCE2, TEZ, HIVE et HIVE ON TEZ.
&bull Mise en place de Kerberos.
&bull Activer les briques sécurités : TLS/SSL, Hadoop ACL, Knox et Ranger.
&bull Upgrade de version HDP (de 2.6 à 3.x).
&bull Monitoring des jobs sur des differents outils (Hive on tez, Big SQL, Dataiku, DataStage IIS 11.7)
&bull PUPA : Gestion de la haute disponibilité : Services HDP, OS, BD, Outils IBM (IIS, Big SQL)
&bull Suopport niveau 3 en travaillant avec les éditeurs IBM, Hortonworks et Cloudera.
DevOps:
&bull Automatisation des taches via Ansible (Installation de CDP7, Deploiement de certifs SSL, Maintenir les
plfs...)
&bull Developpement python à l'usage linux.
&bull Administration Linux (Red Hat).
&bull Documentation et formation des équipes interne.
Environnement technique :
CDP7.1, IIS 11.5/11.7, HDP 2.6.2, RedHat 6&7.
Ansible, GIT, GitLab, Dataiku 8.
Services Big Data: Zookeeper, Hdfs, Yarn, MR2, Hive, Tez, BigSql IBM, Spark 1.X/2.X, Ranger, Sqoop,
atlas, DAS,hive_on_tez, Solr, Knox, HUE, Kafka, HBase.
PyCharm,intellJ, Putty, MobaXtrem, WinSCP,
YAML, JSON, JINJA2, Script Shell, Python.
LDAP, Active Directory, CITRIX
CONSULTANT BIG DATA/DEVOPS/CLOUD
L'ORèAL - Clichy
-
Dans le cadre de migration d'une plateforme Big Data du data centre l'Oréal (On Premise) vers le cloud
Azure, j'ai pris en charge la création des serveurs sur le cloud, l'installation et configuration du stack
technique (CDH(Cloudera), Ansible, Control M, PostgreSQL, MySQL et autres) puis la migration des données
et des applications entre deux cluster distants et l'administration de la plateforme en utilisant ansible pour
l'automatisation des taches.
Taches :
Instanciation des serveurs sur Azure via PowerShell.
Installation et administration Cloudera Manager 5.11 sur Azure.
Mise en place de 3 clusters :.
12 n&oeliguds en mode manuelle.
14 n&oeliguds en mode semi-auto et manuelle.
8 n&oeliguds (sandbox) en mode automatique avec Ansible.
Installation, configuration des outils : Zookeeper, HDFS, Yarn, Spark et Spark 2.X, Hive, HUE, Oozie,
Sentry et Anaconda.
Gestion de la haute disponibilité : HDFS, Yarn, Hive, Hue et oozie.
Installation Ansible et Ansible Tower.
Automatisation des taches via Ansible et l'intégration dans Ansible Tower.
Sécurisation des clusters : Kerberos, Encryption web TLS/SSL, Hadoop ACL et Sentry.
Gérer les anomalies data lake HDFS.
Upgrade de version CDH (de 5.11 vers 5.13 et 5.13 vers 6.2).
Evaluation du stockage Cloud sur Azure (ADLS Gen2) avec Cloudera.
Contact Support et maintenance des clusters.
Administration Linux (Red Hat).
Installation, configuration et administration de Control-M (CTM EM, server, Agent, Client).
Documentation et formation des équipes interne.
Environnement technique : Microsoft Azure, Cloudera(CDH), RedHat 7.
Ansible et Ansible Tower, GitLab, Control-M (9.0.19F100).
Services Big Data: Zookeeper, Hdfs, Yarn, Hive, Spark 1.X et 2.X, Sentry, HUE, Sqoop, Impala.
Putty, MobaXtrem, WinSCP, Script Shell.
LDAP, Active Directory
CONSULTANT ELK
AUDIOPTIC
-
Ce projet a pour but d'améliorer la détection des problèmes réseaux et sécurité (DNS, DHCP, Antispam,
FireWall&hellip). J'ai développé un outil qui permet de parcourir les fichiers de log, rechercher des patterns qui
présentent des problèmes, faire les enrichissements nécessaires et élaborer des dashboards de monitoring.
Taches:
Mettre en place un écosystème ELK.
Administration ELK.
Modélisation des données.
Développement d'un ETL en utilisant PowerShell Windows puis migrer vers Kafka-Logstash pour le
traitement du flux.
Normalisation, transformation, enrichissement du flux.
Stockage des données dans des indexes Elasticsearch.
Restitution des Dashbords Kibana.
Environnement technique :
ELasticsearch 5.6.3, Kibana, Logstash, FileBeats, Zookeeper, Kafka, PowerShell Windows, GlobalProtect,
Administrateur BIG DATA
Orange
-
Dans le cadre de mise en place d'un environnement de production destiné aux équipes BI/ Big Data, basé sur
l'utilisant la distribution Hadoop Cloudera, et afin d'adapter l'architecture techniques à l'usage et améliorer
les performances. Nous avons mis en place un projet qui consiste à analyser et mesurer la consommation
des ressources du cluster par l'ensemble des applications BI/BIG Data dans le but de gagner en
performance et efficacité de traitements. Pendant ce projet Mon rôle était de la prise en charge du Tuning du
cluster Hadoop (Cloudera) et le développement d'un ETL via le développement de différents Jobs en
Spark/scala qui s'intègrent dans des workflows de traitement. Pendant cette expérience je suis intervenu
également sur différents sujets transverses tel que l'administration du cluster et l'architecture fonctionnels.
PROJET 1 : Monitoring de métrique du cluster (Mémoire, CPU, Applications) de cluster par Cloudera
Manager et par Kibana.
Allocation statique et dynamique de métrique (CGroup Linux, Politique d'allocation).
Création des Pools spécifiques (Exemple : Dev, prod, Admin).
Tuning YARN, Spark apps, Hive, Hive on Spark, Hbase.
Support et assistance de l'équipe pour la bonne pratique.
Environnement technique : Cloudera CDH 5.7.4, Script Shell, crontab.
-
PROJET 2 : Développement d'une application de monitoring de la plateforme Big Data.
Collecte de métrique du cluster.
Calcul des KPIs.
Stockage des KPIs dans des indexes Elasticsearch.
Restitution des Dashbords Kibana.
Création d'un workflow Oozie pour la planification de l'ETL.
Rédaction de rapport sur l'application.
Environnement technique : Cloudera Manager Rest API & tsquery, Scala, Apache Spark, Apache Oozie,
Crontab, Elasticsearch, Kibana.
-
PROJET 3 : Développement d'un ETL en Spark/Scala pour le traitement du flux Astellia et Otarie.
Import des fichiers vers l'HDFS.
Normalisation, transformation, enrichissement et filtrage du flux.
Stockage des données dans des tables Hive partitionnées, sous format Parquet.
Création d'un workflow Oozie pour la planification de l'ETL.
Environnement technique : Scala, Apache Spark, SBT, Apache Hive, Apache Oozie, Hadoop CLI.
Administrateur BIG DATA
OOREDOO
-
Dans le cadre de la mise en place d'une plateforme Big Data, je suis intervenu en tant que consultant Big
Data. Cette expérience m'a permis de monter en compétence sur l'écosystème Big Data via des formations
en internes sur l'environnement Hadoop/ Spark/Scala.
Dimensionnement du cluster.
Préparation des prérequis Hardware et Software.
Préparer une infrastructure pour installer une distribution Hadoop Cloudera et ELK.
Mettre en place un cluster.
Mettre en &oeliguvre des différents composants Cloudera et ELK.
Collecte des données.
Des applications de traitement : Détection des fraudes Sim Box en temps réel dans le secteur Telecom.
Collecter des données et décrypter par décodeur (ASN.1). Un ETL en spark pour transfère, enrichir et
agréger à partir du flux des données MSC.
Performance Management de Cloudera (Optimisation et Tuning).
Environnement technique Java, Scala, hive, Pig, hdfs, yarn, spark, kafka, hbase, flume, sqoop, hive, pig,
impala, hue, elasticsearch, Logstash, Kibana, Beats, Security (Shild), Linux RedHat 6&7.