Karim - Architecte Big Data et Cloud

Ref : 191208F002

Email vérifié

92000 NANTERRE
Formateur, Architecte, DevOps (31 ans)
Télétravail si le client est à plus de 2h de son domicile
En profession libérale

Compétences

BIG DATA

Cloudera

AMAZON AWS

Kubernetes

APACHE SPARK

APACHE KAFKA

APACHE HBASE

APACHE HIVE

APACHE HADOOP

AZURE

Expériences professionnelles

EXPERIENCE

Sr Solutions Architect Paris
A partir de Février 2019
Concevoir des architectures data en utilisant les solutions Cloudera
Expertise techniques sur les produits Cloudera: CDP Public Cloud et Private Cloud
Déploiement de CDP sur AWS, Azure, GCP et OpenShift
Audit et "Health Check" de clusters big data
Elaboration de stratégie de sauvegarde et de reprise d'activités
Sécurisation des plateformes CDP: kerberos, TLS, Encryption, authorisation

Architecte permanent / Expertise Cloudera SQY
A partir de Juin 2020
Automatisation d’installation de CDP sur une infrastructure virtuelle OpenStack
Mise en place d'Hadoop Virtualization Extensions (HVE)
Mise en place de l’architecture d’un geo-cluster multi DCs (Stretch Cluster)
Elaboration et conduction d’une batterie de tests PSI: failover et failback
Elaboration et réalisation des Tests d'intrusion
Accompagnement de migration de projets de HDP/CDH vers CDP
Elaboration de la politique de "Security Patch Management"
Supervision infrastructure et applicative via SensuGo

Audit infrastructure et applications Big Data Paris
Février 2023
Réalisation d'un audit détaillé de la plateforme Cloudera CDP 7.1.7
Auditing Impala via Workload Manager WXM
Documentation des bests practices Impala
Tuning d'integration Tableau et Impala

Audit et Stabilisation de performances applicatives Paris
Janvier 2023
Audit approfondi de la stack CDP
Diagnostic de problèmes de petits fichiers générés par les ETL Spark
Documentation des bests practices de développement Spark
Configuration et Tuning de l'intégration Dataiku et CDP

Référent et Expert Cloudera Paris
Décembre 2022
Architecture réseau et physique de clusters Hadoop compatibles DR
Élaboration du plan de Migration d'applications de HDP2.6 vers CDP7.1.7
Automatisation de la réplication de tables Hive ACID et Policies Ranger

Développement d'une application streaming Villejuif
Septembre 2022 - Décembre 2022
Ingestion de données open banking en spark streaming dans HBase
Utilisation de MRIT (MapReduce Indexer) pour l'indexation batch dans Solr
Utilisation de HBase Lily Indexer pour l'indexation "Near Real Time" dans Solr
Réplication de données intra cluster HBase pour les besoin de PRA

Architecte permanent / Expertise Cloudera Nanterre
Janvier 2020 - Juillet 2022
Développement d’un outil de réplication de données Hive/HBase/HDFS.
Développement des extracteurs de métriques Big Data vers Elastic Search.
Développement des Dashboards de monitoring sous Grafana/Kibana.
Mise en place d’algorithme de détection d’anomalies infrastructures et
applicatives.
Participation et revue des architectures applicatives des commanditaires.
Développement d’outillage pour externaliser les Snapshots HBase sur S3

Migration CDH5 vers CDP7 Paris
Mai 2020
Étude des différents scénarios de migration en termes d’impacts et chiffrage :
side-car vs in-place
Élaboration d’un planning détaillé de migration de 5 environnements PROD et
Hors PROD
Automatisation via Ansible des étapes d’upgrades : pre-upgrade tasks, backups,
upgrade de CM et upgrade de parcels

Migration HDP2 vers CDP7 Paris
Janvier 2020 - Mai 2020
Installation et sécurisation de la plateforme CDP-DC 7.1.3
Intégration à la plateforme OpenShift Redhat.
Migration des données de HDP2 vers CDP-DC.
Tutoriel sur les nouveaux composants CDP Private Cloud (Kudu, Impala, CM).

Référent et Teach lead Big Data Arcueil
Mars 2019 - Janvier 2020
Automatisation d’installation de plateformes HDP3.
Automatisation des tests de validation (health check)
Migrations de données de HDP2 vers HDP3 (HDFS/Hive/HBase).
Formation Big Data aux projets (spark2, NiFi, HBase, Hive).
Rédaction du DAT d’un projet GED sur le Datalake.

Architecture PRA projets Data Nice
Janvier 2019 - Mars 2019
Installation et sécurisation de la plateforme Hadoop sur des machines VMware
avec un stockage baie NetApp.
Rédaction de la procédure PRA.
Test et simulation de PRA entre le site de Nice et Paris.

Mise en place de la vision 360 client Paris
Mai 2017 - Janvier 2019
Ingestion de données en mode batch et streaming.
Anonymisation et Chiffrement des données sensibles.
Gouvernance de données et intégration à Atlas/Cloudera Navigator.
Historisation & rollback de données.
Développement d’un framework d’ingestion des données multi-structurées:

Industrialisation d'un solce "Data centric" Le Mans
Décembre 2015 - Avril 2017
Centralisation des logs des clusters Hadoop de chaque entité COVEA (MMA, GMF, MAAF).
Développement des dashboard d'activités client sous Grafana.
Automatisation d'installation de clusters via Chef et Cloudera Manager.
Provisionnement d'OS Redhat/CentOS via Satellite.
Gestion d'identités avec FreeIPA/AD.
Etude et implémentation de Plan de Reprise d'activités pour MMA.

Monitiroring d'une infrastructure cloud basée sur OpenStack Rennes
Mars 2015 - Novembre 2015
Mise en place d’une plateforme OpenStack sous Linux, dédiée aux développements des activités et tests.
Développement d’un Python agent pour collecter les KPIs réseau à partir de ‘’Ceilometer’’.
Développer des tableaux de bord pour la visualisation de la charge datacenter

Études et formations

FORMATIONS

2012-2015 :
Ingénieur généraliste "Parcours Systèmes Logiciels et réseaux"
- IMT Atlantique (Rennes)

Licence L3 Maths et Master I maths et application – (Rang 5eme)
- Université de Bretagne Occidentale

2010-2012 :
Classes préparatoires aux grandes écoles
– parcours MP*
- Lycée Moulay Youssef (Maroc)

CERTIFICATIONS

2023:
Azure Security Engineer Associate
Microsoft Azure DevOps Engineer Expert
Microsoft Azure Solutions Architect Expert
Microsoft Azure Administrator (AZ-104)
Databricks Lakehouse fundamentals

2021-2022 :
CKA Kubernetes Admin
AZ-900 Microsoft Azure Fundamentals
CDP-ADMIN | CDP-DEV | CDP-GEN

2019-2020 :
CKA Kubernetes Admin
AZ-900 Microsoft Azure Fundamentals
CDP-ADMIN | CDP-DEV | CDP-GEN

2019-2020 :
AWS Solutions Architect
HDP3 admin (Cloudera)
Data Analytics (Cloudera)

2016-2017 :
• Cloud Computing (Université de m’Illinois)
• Big Data Analysis with Scala and Spark (Swiss federal Institue of Technology Lausanne)
• Automatic learning (Université Stanford)

2015:
MapR Certified Hadoop Administrator
MarkLogic Fundamentals

COMPETENCES

DATA :
Distrib Hadoop : HDP MapR et CDP
BI : Impala, Hive, Tableau, PowerBI
NoSql : HBase, Cassandra
Index : Solr, ElasticSearch, ELK
Ordonnanceur : Oozie, Airflow,
Streaming : Kafka, Flink, Spark Sreaming

DEV :
Code with Python & Java
Build with Maven, Git,SVN and Gradle
Launch with Bash/ Python

Ops :
OpenShift
Redhat 6, 7 & 8
Ubuntu
JIRA
Jenkins, Ansible
XL Deploy, Rundeck

Cloud:
AWS Architecture,
Azure Admini et architecture
OpenStack

Securité:
TLS, Kerberos MIT
Proxy Knox, WebSSO, OpenID Connect
LDAP, Active Directory

Gestion de projet:
SAFe, Agile
Suite Office 365

Enseignement:
Formateur Cloud & Big Data pour plusieurs entreprises (OnePoint, SNCF, ICDC, Quantmetry)
Professeur analyse de donnée et machine learning: ESEM et ESLSCA

LANGUES
Français: Bilingue
Anglais: Professionnel
Espagnole : Notions
Arabe: Langue Natale