Kouadio Leon - Architecte SQL
Ref : 171120G001-
02700 TERGNIER
-
Chef de projet, Architecte (57 ans)
-
Freelance
Expérience professionnelle
Lead technique BIGDATA
GROUPAMA
Mars 2017 – Octobre 2017
Projet réalisé dans une équipe de 8 personnes
Alimentation de Datalake et de Datawarehouse pour le Suivi d’indicateurs métiers relatifs aux assurés de produits GROUPAMA.
MISSIONS
Définition d’une stratégie pour l’alimentation d’un datawarehouse, implémenté sous Oracle, à partir d’un datalake au moyen des ETLs Informatica, Pig et du framework Spark-Scala
Mise en place d’un automate générateur shell de codes PIG et de schémas JSON décrivant des fichiers de données (au format AVRO) déposés dans un datalake au moyen des outils SQOOP et CDC Oracle Golden Gate
Finition des programmes PIG générés, exécution de ceux-ci en vue de nettoyer les données brutes non qualifiées du datalake puis intégration des données obtenues dans une base HIVE devant servir de point d’appui à des process Spark destinés à alimenter les tables d’un datawarehouse
Modélisation des traitements d’ingestion des données liées aux activités de banques et d’assurance et découlant des spécifications fonctionnelles (définition des algorithmes).
Traduction, sous SQL, du modèle de traitement obtenu et définition d’un prototypage d’intégration en script HQL
Traduction sous Spark-SQL des scripts Hql dégagés (Spécification claire des objets de programmation [Champs, Méthodes et Fonctions])
Coaching d’une équipe de développeurs (pour la maîtrise d’un environnement HADOOP et de son écosystème)
Rédaction des spécifications techniques
Présentation des solutions validées au client
ENVIRONNEMENT TECHNIQUE
LINUX, HDFS, Windows 7/10 et Citrix
Scala
SPARK, PIG, SQOOP
Eclipse
Oracle, Hive
Architecte Technique
Agirc et Arrco/Loccitane/Hermes
Juin 2016 – Décembre 2016
Projets réalisés dans une équipe de 4 personnes
Audit, Expertise et Conseil dans des projets menés en parallèle chez AGIRC et ARRCO, LOCCITANE et HERMES.
MISSIONS
Chez L’OCCITANE (Décembre 2016–Mars 2017)
Analyse de jobs Datastage PX et Server afin de décrire le fonctionnement de certains traitements à reproduire avec la solution BIGINSIGHT
Mise en œuvre d’un «Proof of Concept» consistant à intégrer, en parallèle, un ensemble de documents aux formats divers et variés (XML, Texte) dans un datalake avec la solution BIGINSIGHT d’IBM (solution intégrant INFOSPHERE DATASTAGE, le cœur d’Apache HADOOP et BIG SQL un moteur SQL permettant d’ interroger les données stockées dans un cluster Hadoop)
Présentation du POC au client
Chez AGIRC et ARRCO (Octobre-Novembre 2016)
Audit du système de réplication de données existante (Solution asynchrone faite avec Datastage et script SQL)
Etude des solutions CDC (change data capture) capable de traiter au minimum 1TO de données et de faire communiquer des systèmes maitres (sources) et esclaves (cibles) sur un réseau étendu
Proposition de solutions prenant en compte les problèmes diagnostiqués (Changement de structure des données sources, espace de stockage requis trop important, perturbation de la réplication si suspension puis reprise, impossible de transformer les données à la volée sur le système cible au cours de la réplication, impossibilité de répliquer en temps réel)
Chez HERMES (Juin – Septembre 2016)
Remédier au mauvais départ d’un projet TALEND en procédant à sa variabilisation complète
Donner de bonnes bases de travail à une équipe de développeurs sur les processus d’ingestion de données en leur rédigeant des normes de développement et des conventions de nommages
Début de pratique d’agilité par le rassemblement d’équipes appartenant à la même entreprise dans un même espace de travail
Remodelage des traitements mal conçus (Transformer des jobs Map Reduced en jobs DI et vice versa)
ENVIRONNEMENT TECHNIQUE
Linux(Shell), Windows 7/10, HDFS
ETL - Langage : TALEND v.6.1-Java
Hive, Impala, Hbase, BigSQL
Hive, Hbase (NoSQL)
Solutions Préconisées : INFOSPHERE CDC d’IBM et SQData d’INFOTEL
BIGINSIGHT, BIG SQL,
INFOSPHERE DATASTAGE (Datastage PX et Server)
Lead Technique BI / Big Data
Solocal-group (Pages Jaunes)
Juin 2009 – Mai 2016
Projet réalisé dans une équipe de 11 personnes
Etude du comportement des visiteurs du site ******** afin de leur pousser des solutions et produits personnalisés pouvant booster leur activité commerciale
MISSIONS
Volet BI Standard (2009 – Octobre 2014)
Mise en place d’une bibliothèque d’outils Datastage (routines et jobs réutilisables) assurant la standardisation et l’efficacité des développements en rapport à toutes les applications de la cartographie logicielle (notamment une routine exécutant en parallèle plusieurs instances d’un job server et aussi plusieurs jobs différents)
Fiabilisation, maintenance évolutive et corrective des applications Datastage et scripts SQL (Oracle et Netezza))
Rédaction de document d’exploitation et livraison des packages sur les différents environnements
Coaching technique d’une équipe d’ingénieurs BI par la formation aux outils réalisés et la mise à disposition des normes de développement et conventions de nommage des objets utiles
Etoffer qualitativement le patrimoine BI et améliorer les délais de livraison
Volet BIGDATA (Novembre 2014 / Mai 2016 )
Remodelage d’un projet de centralisation des audiences des prospects et clients du site ******** avec force de propositions sur la forte évolution du volume de données (10 TO + 300 GO de croissance tous les mois)
Coaching de la migration de l’ancienne plateforme vers l’environnement HADOOP
Mise en place d’un paradigme informatique aussi bien sous HADOOP que dans une plateforme Server afin de garantir l’efficacité de tous les projets ETL
Propositions et mise en place de solutions afin d’anticiper sur les dangers encourus par le SI Pages Jaunes (saturation entrepôt données, sécurité des données, etc.)
ENVIRONNEMENT TECHNIQUE
UNIX (Solaris), Linux(AWK-Shell), Hdfs, Windows 7/10
Infosphere Datastage (v 8.7 PX et Server), DMX-H (hadoop) de Syncsort,
Hive, Impala, Netezza, Oracle (8i et 10g), SQOOP, Toad,
Merise, Uml, Power Amc
Expert Technique
CNP ASSURANCE
Décembre 2008 – Mai 2009
Projet réalisé dans une équipe de 7 personnes
Assurer la robustesse, la fiabilité et l’efficacité de projets datastage mettant en application des règles de gestions métiers liées à l’assurance et à la prévoyance retraite.
MISSIONS
Mise en place de procédures de recette bout en bout et de non régression d’application assurant la sécurisation, la normalisation et la validation des données
Description algorithmique des tâches et traitements traduisant le besoin exprimé par la maîtrise d’ouvrage
Optimisation et Tuning des traitements
Rédaction de document d’exploitation et livraison pour la production
ENVIRONNEMENT TECHNIQUE
Linux(Shell), Windows 7/10
Datastage - Server/Basic ascential (v 8.3)
Oracle, VBA-Excel
Expert Datastage
SNCF
Janvier 2007 – Novembre 2008
Projet réalisé dans une équipe de 10 personnes
En collaboration avec CAPGEMINI, booster les développements Datastage PX d’une équipe de 10 ingénieurs afin de tenir les délais en péril exigés par la SNCF
MISSIONS
Supervision d’une équipe de développeurs DATASTAGE PX
Conception d'un modèle d’intégration pilotant tous les process élémentaires concourant à l'alimentation et au rafraîchissement des données du datawarehouse
Modélisation d’un socle de données traçant l'alimentation des datamarts en vigueur, par la mise en évidence des rejets, de leurs causes et cardinalités mais aussi des quantités d'informations en entrée et sortie des flux
Lever les blocages sur certains développements
Rédaction de spécifications détaillées retraçant la conception et l’alimentation des datamarts
ENVIRONNEMENT TECHNIQUE
Linux(Shell), Windows 7/10
Infosphere Datastage (v 8.3 – Px et Server)
Oracle 10g, VBA-Excel
Formation
1993
INSET – Ingénieur Informaticien (génie logiciel)
CONNAISSANCES TECHNIQUES
Systèmes de fichiers
MS-DOS, Unix/Linux (Shell), Hadoop File System (HDFS), Virtual Memory System (VMS), Windows 2010/2007/NT/2000/xp
Intégration de données
Stratégie pour suivi de gestion de rejets, d’orphelins et lignes de données traitées, Tunning et Alimentation Datamart (ou Datawarehouse) par ETL (ou ELT)
E.T.L.
IBM-InfoPhere Datastage, V 8.7/ Datastage Serveur V 7.2– Datastage PX, DMX-h/DMXExpress de SYNCSORT (modèle informatique MapReduce), Genio
Big Data et Langages
Hdfs, MapReduce, Hive, Impala, Pig, Scala-Spark(SQL), Sqoop, SQL, Biginsight, BIGSQL, C
Modélisation et assise de socles Data
Modélisation de données pour production de Bases de données relationnelles (par Merise) et de Datamarts pour modèles en Etoile et en Flocon de Neige, Conception de traitements Objets après description de ceux-ci par Uml, Informatisation de process par la méthodologie Castellani
Appliance
Netezza
Outils de développement
Eclipse
SGBDR
Oracle 8,9i,10g, SQL Server, MySQL, Db2, Ms-Access
SQL
Expert SQL (pour Appliance NETEZZA et les SGBD classiques Oracle/SQL Server)
Méthodes
Cycle en V, Agilité
Langues
Anglais technique
Divers
Esprit de synthèse, Curiosité fonctionnelle, Veille technologique
Conduite de projet
Coaching technique d’équipe en vue de mener à bien des projets d’intégration de données