Site Reliability Engineering (SRE) Practitioner - Certification Mixte : présentiel / à distance
Dernière mise à jour : 08/03/2023
Présentation
La formation SRE (Site Reliability Engineering) Practitioner présente des moyens de faire évoluer les services d'une organisation de manière économique et fiable. Il explore les stratégies permettant d'améliorer l'agilité, la collaboration interfonctionnelle et la transparence de l'état de santé des services afin de renforcer la résilience par la conception, l'automatisation et les remèdes en boucle fermée.
Le programme vise à doter les participants de pratiques, de méthodes et d'outils permettant d'impliquer les personnes de l'organisation concernées par la fiabilité grâce à des scénarios et des cas concrets. À l'issue de la formation, les participants disposeront d'éléments tangibles à exploiter de retour au bureau, tels que la mise en œuvre de modèles SRE adaptés à leur contexte organisationnel, la mise en place d'une observabilité avancée dans les systèmes distribués, la construction de la résilience par la conception et des réponses efficaces aux incidents à l'aide des pratiques SRE.
Objectifs
- Comprendre les principes de la SRE et comprendre ce qu'elle n'est pas en termes d'anti-modèles, et comment en prendre conscience pour les éviter.
- Maîtriser l'art des SLI et des SLO dans un écosystème distribué et étendre l'utilisation des budgets d'erreur au-delà de la normale pour innover et éviter les risques.
- Construire la sécurité et la résilience par la conception dans un environnement distribué à confiance zéro.
- Collecter des données à l'aide de l'IA pour passer d'une gestion réactive à une gestion proactive et prédictive des incidents.
- Utiliser les DataOps pour construire un lignage de données propre.
- Comprendre le rôle de SRE et comprendre pourquoi la fiabilité est le problème de tous.
Programme

1. Les anti-modèles SRE
- Rebranding d'Ops ou DevOps ou Dev en tant que SRE.
- Les utilisateurs remarquent un problème avant vous.
- Mesurer jusqu'à mon bord
- Les faux positifs sont pires que l'absence d'alertes
- Piège de la gestion de la configuration pour les flocons de neige.
- Le Dogpile : La réponse aux incidents de la mob.
- Fixation de points
- Le gardien de l'état de préparation à la production.
- Fail-Safe, vraiment ?
2. L'ALS est une approximation du bonheur du client
- Définir des SLI qui mesurent de manière significative la fiabilité d'un service du point de vue de l'utilisateur.
- Définir les limites du système dans un écosystème distribué pour définir des SLI corrects.
- Utiliser les budgets d'erreur pour aider votre équipe à avoir de meilleures discussions et à prendre de meilleures décisions basées sur les données.
- Globalement, la fiabilité est aussi bonne que le maillon le plus faible de votre graphique de service.
- Seuils d'erreur lorsque des services tiers sont utilisés
3. Construire des systèmes sûrs et fiables
- SRE et son rôle dans la construction de systèmes sûrs et fiables
- Conception pour une architecture changeante
- Conception tolérante aux pannes
- Conception pour la sécurité
- Conception pour la résilience
- Conception pour l'évolutivité
- Conception pour la performance
- Conception pour la fiabilité
- Assurer la sécurité et la confidentialité des données
4. L'observabilité de la pile complète
- Les applications modernes sont complexes et imprévisibles.
- La lenteur est le nouveau down
- Piliers de l'observabilité
- Mise en œuvre de la surveillance synthétique et de la surveillance de l'utilisateur final.
- Développement axé sur l'observabilité
- Traçage distribué
- Que devient la surveillance ?
- Instrumentation à l'aide de bibliothèques et d'agents
5. Ingénierie de plateforme et AIOPs
- Adopter une vue centrée sur la plateforme permet de résoudre les problèmes d'évolutivité organisationnelle tels que la fragmentation, l'incohérence et l'imprévisibilité.
- Comment utiliser les AIOps pour améliorer la résilience.
- Comment DataOps peut vous aider dans cette démarche ?
- Une recette simple pour mettre en œuvre l'AIOps
- Mesures indicatives de l'AIOps
6. SRE et gestion de la réponse aux incidents
- Responsabilités clés du SRE vis-à-vis de la réponse aux incidents.
- DevOps & SRE et ITIL
- OODA et réponse aux incidents SRE
- La remédiation en boucle fermée et ses avantages.
- Swarming - des pistes de réflexion
- AI/ML pour une meilleure gestion des incidents
7. L'ingénierie du chaos
- Naviguer dans la complexité
- Définition de l'ingénierie du chaos
- Faits rapides sur l'ingénierie du chaos
- Histoire de l'origine du singe du chaos
- Qui adopte l'ingénierie du chaos
- Les mythes du chaos
- Expériences d'ingénierie du chaos
- Exercices du jour du match
- Sécurité de l'ingénierie du chaos
- Ressources sur l'ingénierie du chaos
8. SRE est la forme la plus pure de DevOps.
- Les principes clés du SRE
- Les SRE permettent d'augmenter la Fiabilité sur l'ensemble du spectre des produits.
- Les mesures de la réussite
- Sélection des domaines cibles
- Modèle d'exécution de la SRE
- La culture et les compétences comportementales sont essentielles.
- Étude de cas SRE
Devoirs/exercices post-classe
- Conception non abstraite à grande échelle (après le 1er jour)
- Observabilité et surveillance (après le 2e jour)
- Instrumentation de l'ingénierie du chaos
Public visé
- Concepteurs de processus.
- Développeurs,
- Ingénieurs en assurance qualité,
- Collaborateurs en charge de l'amélioration des processus,
- Consultants qui guident leurs clients dans le cadre d'initiatives d'amélioration des processus et de DevOps.
Modalités pédagogiques
Softeam Institute propose plusieurs dispositifs pédagogiques adaptés aux stagiaires :
- Formation en présentiel
- En groupe (inter-entreprises ou intra-entreprise)
- En individuel (monitorat)
- En journée ou en cours du soir (sur demande spécifique)
- Formation en distanciel
- Distanciel synchrone
- Distanciel asynchrone
Prérequis
- Il est fortement recommandé aux apprenants de suivre la formation SRE Foundation avant de suivre la formation SRE Practitioner.
- Une compréhension et une connaissance de la terminologie, des concepts et des principes courants du SRE ainsi qu'une expérience professionnelle connexe sont recommandées.
- La certification SRE Foundation est un prérequis pour l'examen SRE Practitioner.
Moyens et supports pédagogiques
- Apports didactiques pour apporter des connaissances communes.
- Mises en situation de réflexion sur le thème du stage et des cas concrets.
- Méthodologie d'apprentissage attractive, interactive et participative.
- Equilibre théorie / pratique : 60 % / 40 %.
- Supports de cours fournis au format papier et/ou numérique.
- Ressources documentaires en ligne et références mises à disposition par le formateur.
- Pour les formations en présentiel dans les locaux de Softeam, les stagiaires sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un carnet de notes est offert. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).
Modalités d'évaluation et de suivi
En amont de la formation :
- Recueil des besoins : permet de récolter des informations sur le stagiaire (profil, formation, attentes particulières, ...).
- Auto-positionnement des stagiaires afin de mesurer le niveau de départ.
Tout au long de la formation :
- Évaluation continue des acquis via des questions orales, exercices / projet fil rouge, des QCM, des cas pratiques et mises en situation.
A la fin de la formation :
- Auto-positionnement des stagiaires afin de mesurer l'acquisition des compétences.
- Evaluation du formateur des compétences acquises par les stagiaires.
- Questionnaire de satisfaction à chaud : permet de connaître le ressenti des stagiaires à l'issue de la formation.
- Questionnaire de satisfaction à froid : permet d'évaluer les apports réels de la formation et leurs mises en application au quotidien.