Supervision et performances pour l𠆚utomatisation des lignes 4 et 11 de la RATP
Définition de l𠆚rchitecture de la solution de supervision basée sur nagios ,centreon, nagvis, snmp et la ELK et kafka. Pour la Ligne 4
Zabbix et ELK pour la ligne 11
Définition du catalogue de service pour la supervisons des différents équipements
Implémentation et automatisation de la solution définie dans un environnement HA : Ansible Tower
Applicative
Etude et mise en place d’une solution de supervision basée sur Nagios pour un environnement très hétérogène aussi bien d’un point de vue infrastructure qu𠆚pplicatif.
• Collecte des besoins client en termes de supervision (Hardware, software, service, architecture, etc.)
• Spécifications de la solution cible et validation par le client
o Les éléments à superviser
o Les relations entre les différents éléments
o Niveau d𠆚lerte par élément
o Procédure d’intervention en cas d𠆚lerte
• Définition de l'architecture matérielle et logicielle nécessaire pour la plateforme de supervision
• Mise en place de la solution (centreon)
• Définition d’un socle minimuim pour la supervision selon le profil système et applicatif puis développement des sondes non existantes sur les sites communautaires (perl et shell scripting)
• Organisation des comités de suivi et compte-rendu des comités de suivi
• Mise en place de la documentation de la solution implémentée et formation de l’équipe helpdesk à l’utilisation de la solution
Mettre en place une solution de supervision applicative pour pouvoir diagnostiquer et résoudre des problèmes de performance dans les deux environnements : Grande distribution et ERP d𠆚griculture
• Etude de l𠆚pplication d
Son architecture e gestion de la grande distribution du groupe
Ses environnements
Ses interfaces
Ses logs, etc
• Mise en place d’une solution de supervision applicative basée sur la suite Elasticsearch :
Installation et configuration de la solution
Définition et mise en place des métriques à surveiller
Centralisation des logs applicatifs pour corrélation avec les métriques
Mise en place de tableaux de bord permettant le suivi et l𠆚nalyse des performances
• Mise en place d’inspectIT et jmeter comme outils d𠆚PM (Application performance Management)
Identifier les différents goulots d’étranglements (applicatifs et infrastructure)
Effectuer les changements nécessaires (configuration middleware)
Mesurer l’impact des changements par jmeter
Généralisation des nouvelles configurations
Ces travaux nous ont permis d𠆚méliorer les performances de l𠆚pplication et d𠆚voir des indicateurs de performance mesurables ?
• Travailler sur les problèmes de lenteur NAVISION :
Agrégation des locks SQL server et exécution des interfaces
• Une fausse piste utilisée depuis des mois comme prétexte de lenteur
• Un rapport a été rédigé dans ce sens
Analyse des performances des infrastructures et leur impact sur les performation applicatives
Corrélation des évènements infrastructures et applicative pour une résolution plus rapide des incidents de production
• Utilisation de la solution implémentée sur Elasticsearch pour la résolution et analyse des incidents de production
implémentation d’une solution de supervision open source »
Mettre en place une solution de supervision pour le plus large ISP (44 millions de boite mail, plus que 10 PB de stockage (NetAPP, Hitachi Fuji) Plus que 8 Millions d'objets 2000 serveur Linux) dans un environnement cloud
• Collecte et étude de besoins client en termes de supervision (Hardware, software, service, architecture, etc.)
• Étude comparative des différentes solutions de supervision open source
• Définition de l'architecture matérielle et logicielle nécessaire pour la plateforme de supervision
• Implémentation de la solution de supervision distribuée en haute disponibilité (cluster Mysql, ombre nagios)
• Mise en place de centreon pour automatiser la configuration de nagios
• Implémentation des différentes sondes (perl et shell scripting)
• Ordonnancement, tri et optimisation des alertes pour un maximum de performance sans engorgement du réseau
• Mise en place de Nagvis pour l𠆚grégation des vues
• Centralisation de déploiement de plugins et clients (puppet)
• Organisation des comités de suivi et compte-rendu des comités de suivi
• Mise en place de la documentation de la solution implémentée et formation des membres de l'équipe
• Renfort de l’équipe dans son quotidien par l'expertise NetApp et Linux
* Déploiement de nouveau serveurs linux et baies de stockages NetApp
* Déploiement de la solution cloud stockage d'Atos (plus de 10 PO en prod, 20 G/sec in+ out pour la plus grande plateforme mail)
* Support N3 de la plateforme mail
« Mise en place d’une plateforme de monitoring »
• Collecte d’informations matérielles et logicielles des différents sites
• Documentation de l𠆚rchitecture en place
• Collecte des besoins en termes de supervision des différentes équipes
• Etude et choix de l’outil de supervision : nagios
• Définition de l𠆚rchitecture nagions à mettre en place (station et services)
• Installation et configuration du serveur de supervision principal (redhat EL)
• Installation des différents modules nécessaires à nagios
• Installation et configuration de la plateforme LAMP nécessaire pour nagios
• Installation et configuration de nagios
• Installation de N2RRd pour les graphiques de supervision
• Définition et validation des différents niveaux d𠆚lertes et des processus de communication
• Implémentation des plugins (shell, perl, VBscript) pour la supervision
• Mise en place, test et validation des plugins et puis de la solution définitive
• Documentation de la solution (documentation détaillée ainsi que le support utilisateur par équipe)
• Formation des équipes sur l’utilisation de la solution en place
IBM : Packaging et Distribution d𠆚pplications UNIX et WINDOWS Michelin Clermont-Ferrand.
• Interface entre le client Michelin les équipes de développements et l’équipe IBM d’industrialisation
o Gestion des plannings (dates de tests, d’industrialisation, taux et temps d’indisponibilité)
o Validation des cahiers de charges
o Validation de la documentation d’industrialisation
o Vérifications des environnements de test et d’industrialisation
o Documentation et rapport détaillé de l’industrialisation
• Industrialisation d𠆚pplications métiers et de progiciels
o Prise en compte de l'application et de son architecture
o Coordination avec les différentes équipes intervenantes (client Michelin et équipes internes IBM)
o Mesure de la complexité de l'application et de son adéquation par rapport aux standards habituels
o Estimation de la charge initiale d'industrialisation et du risque
o Préparation et mise en production
o Mise en place de sauvegardes applicatives
o Communication avec le client
• Création des kits de packaging des applications
o Client-Serveur
o Visual Basic, Access
o Websphère
o Citrix
o Progiciels (COGNOS, Cut 4 axes pour CATIA, client CITRIX…)
o Forte
• Surveillance des batch applicatifs
o Création de plans de production, Schedule et de Jobs Maestro
• Distribution des applications
o Déploiement des applications et progiciels
o Création et mise à jour et gestion de bases de données Oracle
o Installation de bases de données Oracle packagé
• Mise en place de transferts de fichiers
o Création de flux PELICAN (Peli-PC, Peli-NT et Peli-Semaphore)
Delivery Manager pour les sites de Tunis, Rabat (Maroc) et Istanbul (Turquie), ainsi que coordinatrice du plan de Contingence et Information Security Officier pour le site de Tunis
• Gérer une équipe IT composée de 14 Ingénieurs (7 basés à Tunis, 6 à Rabat et 1 à Istanbul). Notre équipe avait la mission de supporter des infrastructures de 500 serveurs (50% Solaris et Unix, 40% de Linux et 10% de Windows) et 600 utilisateurs (300 à Tunis, 200 à Rabat et 100 à Istanbul) avec un budget IT de 2,5 Million $ pour les trois sites.
• Coordonner plusieurs projets ICT au niveau DSM (Design, Sales and Marketing sites) (15 sites basés en Belgique, France, Maroc, Suisse, Tunisie, Turquie et Angleterre).
• Déployer les normes de l’ISO TS au sein des équipes IT de Tunis et Rabat.
• Coordonner le plan de contingence de Tunis : mise en place, test et maintenance des tous les plans composants le plan de contingence :
- Plan d’évacuation du personnel,
- Plan de continuité dtivité,
- Plan de recouvrement IT,
- Plan de recouvrement du site.
• Définir, appliquer, documenter et mettre en place les politiques et procédures de sécurité informatique et physique pour le site de Tunis dans le but d𠆚ssurer la conformité avec les règles ST.
• Installation, configuration, Administration des serveurs Unix (solaris, AIX et HP-UX), Linux (Redhat, Suse) et Windows
• Mise en place et mise à jour des serveurs d’installation et de patches automatique Jumpstart (Solaris) et kickstart (Linux) : Mise à jour de la liste des packages nécessaires et leurs patches.
• Automatisation des tâches récurrentes dministration et tunning des serveurs
• Installation et administration des outils de monitoring de l’utilisation des différents serveurs (Ganglia, Nagios, Analytics et DFM)
• Installation et configuration des systèmes de stockages : Network Appliance, Netbackup et TSM
• Installation et administration des infrastructures de Data Management avec ClearCase
• Gestion /Administration de Cluster/Grid sous LSF (Load Sharing Facilities)
• Gestion/Administration des logiciels pour les ingénieurs de R&D
• Gestion/Administration des bases de données MySQL et Serveurs Web
• Support technique aux utilisateurs en Unix, Linux, Windows, Réseaux et CAD
• Interface avec les équipes centrales d’infrastructures ainsi que les équipes de supports des autres sites ST Micro (Grenoble, Crolles, Paris, Zaventem, Bristol, Istanbul, Rabat, Noida, etc.)
• Partage des résultats de monitoring d’utilisation HW/SW (Licences) avec le management du site
• Formation des utilisateurs en UNIX, Environnement Utilisateur, LSF et ClearCase