Ahmed Amine - Architecte APACHE HADOOP
Ref : 141201A001-
92000 NANTERRE
-
Architecte, Directeur de projet, Consultant technique (40 ans)
-
Totalement mobile
-
Mandataire social de sa structure Freelance (SARL, SAS, EURL, etc)
Expérience professionnelle
2019 – NOW
CTO & CO-FOUNDER, IS PILLAR
Consulting company specialized in data and web app products
RECENT MISSIONS:
➢ Chanel (Brand Protection Unit): Audit, optimization and maintenance of 4 web apps
hosted on Azure and used for combating counterfeit products and the anti-diversion
• Audit of web apps and web scrapers (using scrapy python library)
• Optimization and evolvement of the architecture
• DevOps CI-CD automation
➢ LFP (Ligue Football Professionel): Cloud architecture and pipelines development
• Design of the architecture using Azure Data factory and Data Lake components
• Development of U-SQL queries and ADF pipelines
• DataOps CI CD automation
• Support of the Power BI dashboards development
➢ CACEIS (French bank): Architect of the data lake and Hadoop administrator
• Design of lambda architecture using Hadoop ecosystem components like Hive,
Hbase, Kafka, Ranger and Spark
• Support of the development Spark SQL and streaming jobs using Talend
• Development and deployment of streaming dataflow using StreamSets
• Hadoop HDP cluster administration and upgrade
• Study of HDP migration to CPD datacenter
• Install & configuration of Talend tools (TAC, jobserver and Studio)
• Deployment of machine learning model in real time using StreamSets and
Python
• Data governance: data lineage and monitoring using Apache Atlas and custom
development
IS Pillar :
2018 jusqu’à aujourd’hui
Société de conseil en Business Intelligence et en Big Data créée en Nov 2018
CEO – cofondateur de IS Pillar
Architect – audit de solutions d’anti-contrefaçon et anti-détournement
Durée : 6 mois
Client : Chanel (Brand protection unit)
- Audit de l’architecture data et applicative
- Audit de 4 web apps d’anti-contrefaçon et anti-détournement
- Audit du script de scraping Python
- Entretien avec les différents acteurs techniques
- Livrable recommandation d’architecture et plan de remédiation
- Suive de la mise en place du plan de remédiation
- Développement d’un flux ETL et déploiement des pipelines sur Azure Data Factory
Environnement : Azure + Microsoft BI + Azure Data Lake (ADLS + ADLA) + Sql Server + ADF (Azure Data Factory)
Architecte data lake
Durée : 18 mois
Client : CACEIS (Crédit Agricole - Caisse d'Epargne Investor Services)
- Mise en place d’un data lake chez CACEIS
- Définition d’une architecture Lambda (validée par McKinsey)
- Suivi de la mise en place de l’architecture
- Administration de la plateforme Hadoop (Hortonworks)
- Installation et configuration de l’environnement PPROD et PROD : Talend (TAC et JobServer) + StreamSets +
Vertica
- Développement et déploiement des jobs streaming (Streamsets & Talend big data real time)
- Industrialisation et déploiement des modèles machine Learning en PROD
- Data gouvernance : data lineage et monitoring de la qualité des données sur Apache Atlas
Environnement: Hadoop HDP 2.6.5 + Vertica + Attunity + StreamSets + Oracle + DB2 + Sybase + Talend + Nexus +
Ekimetrics:2011 jusqu’à aujourd’hui
Cabinet de conseil spécialisé en Data Science et stratégie marketing
Directeur technique chez EkimetricsCTO
-Fondateur de l’équipe BI & Big data (Data Operations Team)
-Organisation, gestion et pilotage de l’équipe data opération (12 consultants en data engineering)
-Direction et implémentation des projets internationaux BI et Big data
-Contribution aux réponses aux appels d’offres et à l’avant
-vente (propales / propositions commerciales)
-Recueil et analyse des besoins des clients
-Organisation et pilotage des livraisons des projets
-Définition des cadres technologiques ou méthodologiques définissant la stratégie d’architecture
-Définition de l’approche de modélisation adapté au contexte du projet
-Rédaction des spécifications fonctionnelles et techniques
-Définition des indicateurs d’évaluation et de choix des solutions
-Identification des opportunités technologiques et création d’un plan d’orientation technologique susceptible d’apporter de la valeur business.
-Responsable des recrutements et d’encadrement des ressources
-Gestion des plannings de l’équipe (staffing prévisionnel / chiffrage)
-Formalisation des processus d’entreprise
-Mettre en place les plateformes de veille les plus performantes
-Suivi budgétaire et planification
Missions:
1.
Data Lake & Data Management Platform:
Réconcilier l’ensemble des visions / Connecter des systèmes différents pour générer
des analyses et visualiser le parcours
client / Rationaliser la production des tableaux de bord
Client: Site en Top 100 Nielsen des plus fortes audiences Internet
Durée: 16 mois
oMise en place de l’environnement de recette et de de production (cluster hadoop de 6 nœuds)
oMise en place d’un data lake qui intègre les données CRM, log de navigation du site, flux de retour des compagnes emailing et les données du backend
En termes de volumétrie le data lake présente 15 To et certaines tables sont à l’ordre de quelques milliards de lignes
oData integration et data processing automatisé
oMise à disposition d’un data mart de reporting
oGénération d’un flux quotidien qui permet d’alimenter un DTM de marketing
Environnement:
Hortonworks + HUE + YARN +MapReduce + Hive + Sqoop + Pig + Kerberos + Python
+ API Google AdSense + Google AdWords + AT Internet + Eulerian + Postgre SQL + Tableau Software 2.
Data mart de datamining et implémentation des scores/segmentations :
Intégration et traitement des données
Client:
Constructeur automobile japonais
Durée: 24mois
oCentral Database
▪DTM de datamining actualisé en fréquence hebdomadaire
▪Calcul des sources pour plus de 20 pays (ERD, APV ...)
▪Envoi des scores au DTM marketing
▪Automatisation des différents flux
oProgramme re-marketing:
▪Automatisation des arbres de décision
▪Planification des broadcasts en mode trigger
oCRM et gestion des compagnes:
▪Intégration des données CRM
▪Croisement des données CRM avec le flux retour emailing (clicks, opens, hardbounce,sof
tbounce, unsubscibes...) pour mesurer les performances des compagnes (ROI)
oData cleansing:
▪Nettoyage des données en provenance du web
▪Certification des données (emails, adresse, tel ...)
▪Export automatique au BDD centrale
oReporting espace client en ligne:
▪Mise en place d’un datamart
▪Croisement des données CRM, web et omniture
▪Génération des rapports
oDealer data hub:
▪Réalisation d’un data hub qui agrège les données à la maille concessionnaire en provenance
d’une dizaine des sources
▪Le hub est devenu un provider de données pour plusieurs applications
▪Vision dealer unique et calcul des scores
▪Génération des rapports
oB2B data enrichement:
Formation professionnelle
▪Migration des bases de données locales dans la BDD centrale
▪Web scrapping automatisé pour enrichir les données des socié
tés pour une dizaine de pays et export vers la BDD centrale
oAcademy Project:
▪Automatisation des flux en provenance des plusieurs sources
▪Génération des rapports automatisée
oUEFA champions league
▪BDD permettant la gestion des votes
▪Gestion des compagnes marketing
▪Envoi des scores aux différents entités Nissan
▪Génération d’exports automatique à destination de la BDD centrale
Environnement:
Hortonworks + HUE + YARN +MapReduce + Hive + Sqoop + Pig + Kerberos + Python + API
Google AdSense + Google AdWords + AT Internet + Eulerian + Postgre SQL + Tableau Software
3.
Data mart de reporting et génération des rapports :
Centralisation des données de vente des véhicules (VN), d’après ventes et des compagnes marketing dans un data mart de reporting pour mesurer les ROIs des compagnes et calcul
er les KPIs (chiffre d’affaire, nombre des passages atelier par réseau ...)
Client: Constructeur d’automobile français
Durée: 3mois
oIntégration des données des ventes, d’après ventes et des compagnes marketing
oApplicationd’algorithme de qualité de données (matching, certification ...)
oCalcul des KPI
oRestitution des rapports dans Excel
Environnement:SQL Server 2008 R2 + SSIS + C#4.
Matching des clients, possessions et des véhicules:
Mise en place d’un référentiel client unique.
Client: Constructeur d’automobile français
Durée: 6mois
oIntégration des données dans hadoop (Hive)
oDéfinition des règles de matching avec les équipes métiers et des règles de fusions des données
oImplémentation de l’algorithme de matching
oMise à disposition d’un référentiel via des exports automatisée
Environnement: Hadoop + Hive + PostgreSQL + Python + Shell5.
Threat Intelligence Platform:
Mise en place d’une plateforme permettant la détection des menaces en temps réel en scorant les logs en provenance des sites internet des abonnés.
Client: Première société de service spécialisée en cyber sécurité en France
Durée:10 mois
oChargement des données en temps réel Elastic Search
oChargement des données sources dans HDFS
oTransformation des données sources (IOC) en sous évènements (split URL, File, FQDN, ASN, IP Address)
oEnrichissement des évènements générés (hashkey ...)
oTraitement des évènements,rapprochement des évènements (matching) et
calcul des scores
oStockage des données dans Elastic Search
oMise à disposition de l’API via elastic search pour requêter les données via la front end
oGénération de graph pour analyser le lien entre les menaces-
Environment: Cloud OVH+ Hortonworks + Spark + Scala + Elastic Search +HDFS + KIBANA
+ API6.Data warehouse suivie consommation électrique(compteurs linky):
Accompagnement sur l’architecture, modélisation et intégration des données dans le data warehouse.
L’objectif est de mettre à disposition des abonnées une plateforme de reporting
accessible sur leurs espace client pour analyser la consommation
Client:
Fournisseur et producteur français privé d'électricité et de gaz.
Durée: 6mois
oRecueil des besoins clients et audit de l’existant
oEtude volumétrique et détection des goulots d’étranglement (certaines tables de faits atteindront des centaines des milliards d’enregistrements)
oModélisation multidimensionnelles optimisée pour le reporting (drill down /roll up)
oAccompagnement sur l’intégration des données dans le DWH
Environnement:
Oracle 11G+ Infromatica+ PL/SQL+ SAP PowerDesigner7.
Segmentation des usages et navigations smartphones:
Segmentation des clients en se basant sur leurs données de profil et le comportement de navigation
Client: Société française de télécommunications
Durée: 6mois
oAnonymisation des données de navigations
oChargement des données sources en oneshot sur un cluster hadoop (Hortonworks)
oData cleansing & data enrichementvia des scripts python
oAnalyse des données et calcul des indicateurs via Hive
oCollaboration avec les équipes métiers pour produire la segmentation
Environnement:
Cloud Azure + HDInsight+ Hadoop+ Hive + Pig + Python8.Implémentation score anti churn
dans le secteur bancaire :
Implémentation de score anti churn en se basant sur les données de profil client et de transactions bancaire
Client: Banque française
Durée:6mois
o Intégration des données sources sur hadoop
oAgrégation des données à la maille client
oImplémentation du score anti churn sur spark
oConsolidation de la sortie dans des tables Hive
Environnement:Hadoop + Hive+Spark + ScalaRéalisations
DSI:
-Commande des équipements informatique (Serveurs, Appliances, Switchs, firewalls
, IPBX...)
-Mise en place d’un cluster hadoop de production haute de gamme (PowerEdge R730 xd)
-Configuration / administration des serveurs (SQL, fichiers, reporting
-Firewll physique en cluster actif-actif / VPN site-to site
-Backup de 200 Téra de données in house
-Réplication du backup dans un DC parisien toutes les heures
-Active directory en cluster
-Virtualisation hyper-v en cluster
-Aménagement salle serveur
-Rédaction des appels d’offres et sélection des prestataires
-Pilotage des projets et planification de la roadmap DSI
-Sécurité:
oMonitoring (analyse des logs sous splunk)
oPlanification des tests de pénétration
oRédaction de plan de reprise/continuité d’activité (PRA/PCA)
o-Pilotage et suivi de la gestion des postes de travail, support utilisateurs et outils collaboratives (exchange,teams...)
Environnement:
-Microsoft Windows Server 2008 R2
–2014-Oracle / SQL Server (2008 -2014)
-Linux Redhat / Centos
-Cyberoam CR100ing
-Dell Appassure DL4000 / DL300
-Dell Powervault MD 1200 / MD 1220
-Hortonworks
-Active directory
-Exchange / Office 360
Euro information:2008 –2011 Informaticien d’étude chez Euro
-Information:
-Conception et implémentation des applications intranet, des sites internet et des web services.
-Services et batchs pour traitement des gros volumes de données.
Missions:
-MTL3(durée 20 mois): Projet d’internationalisation du système d’information du groupe bancaire CM-CIC.
oMise en place d’un service pseudo-temps réel qui permet le rapprochement intelligent des textes (Algorithme contenant 5 niveaux de rapprochements) à fin d’éviter la retraduction des textes.
oRéalisation d’un batch d’auto-alimentation du référentiel des textes dans tous les couples langues pays contenant les traductions confirmées.
Base de données d’apprentissage du processus de rapprochement.
oTraitement de reprise de l’existant à partir des anciennes bases DB2
oRecette de l’application intranet partie qualification des textes et gestion de demandes de traduction.
-BACM (durée 2 mois): Développement d’un moteur de recherche des livres, revues et
brochures... pour la bibliothèque alsatique du crédit mutuel
Lien: ********.aspx
-TPY1 (durée 3 mois): Centre de Gestion dédié au secteur Santé du
crédit mutuel:
oMise en place d’une application en ligne de gestion active des FSE et des Tiers
-Payant qui offrent un bouquet de services aux pharmaciens et aux médecins.
oTraitement des gros volumes de données gérées par le partitionnement sous oracle
-AIB 5 (durée 6 mois): Gestion des programmes immobiliers commercialisés par CM
-CIC.-OGIS (durée 2 mois): Gestion des bâtiments et des chantiers du groupe CM-CIC
Domaines de compétences:
• Conseil en architecture:technos et infraon promise et cloud
• Conception et mise en place de solution CRM, BI et Big data(Data warehousing/lake)
• Big Data & Hadoop Ecosystem
• Gestion projet BI & Big Data –Conseil en technologies
• Pilotage des équipes et gestion de projets
• Conduite de changement –Cadrage stratégique
Foramation académique
2012-2012 : Formation en Big data
International School of Engineering -Inde
• 2006-2008 : Diplôme de fin d’études 2 ème cycle en informatique appliquée
Université de Carthage: École nationale d'ingénieurs de Carthage
• 2004-2006 : Diplôme de fin d’études 1er cycle Université de Carthage: École nationale d'ingénieurs de Carthage
• 2002 -2003 : Diplôme de Baccalauréat –Section technique
• Système d’exploitation:-Microsoft Windows server 2008/2012 R2-Linux: CentOS
/Redhat
• Plateforme de développement et langages :-Plateforme Microsoft .net-C#, C++, C
, Java, Scala et Python-Asp.net, JSP et PHP-HTML, XHTML et JavaScript
• Bases de données :-SQL Server 2012, 2008 R2 et 2005 SQL vNext -BDA, Hexadata, Oracle 9i et 11g-Mysql et Postgresql-NoSql Cassandra, Hive, Pig, MongoDB et Hbase
• Cloud :oMicrosoft Azure: HdInsight+ Data lake store + Azure data factory
+ Blob storage+ Load balancer + Azure scheduler + Azure Automation + Azure monitor + Text analytics NLP + Azure VMoAWS:10 VM + Scripting pour le déploiement+ Automatisation (
exp marche arrêt du cluster...)
• Autres :-SSIS, SSRS, SSAS et Talend-SAS, SPSS, Spad et E-Views-SAP PowerAMC
-MS-DOS et Shell-Spectrum -Elastic search-Spark-GreenPlum / CitusData
-Administration Hortonworks -...
ArabeLangue maternelle
Français Bilingue
Anglais Bonniveau