Explorer Gestion de la fiabilité des services

Gestion des opérations IT Xanadu

Release

xanadu

ft:locale

fr-FR

ft:publication_title

Gestion des opérations IT Xanadu

ft:clusterId

itom

bundleId

itom

workflow

Technology

Explorer Gestion de la fiabilité des services

Rversion finale: Xanadu

Mis à jour 1 août 2024

4 minutes de lecture

Gestion de la fiabilité des services (SRM) fournit une expérience guidée en libre-service permettant aux équipes de gérer de façon autonome l’intégrité de leurs services techniques. L’expérience est créée à l’aide de l’application Espace de travail pour l’exploitation des services et combine les options ITOM et ITSM en un seul workflow d’exploitation des services.

Vue d'ensemble de SRM

Optimisez l’intégrité du service avec Gestion de la fiabilité des services (SRM) pour les équipes informatiques qui adoptent des pratiques SRE (Site Reliability Engineering). SRM est un espace de travail d’opérations unique qui permet aux équipes d’améliorer la fiabilité des services numériques avec SRE.

Utilisez les escalades d’astreinte pour répondre aux problèmes identifiés par vos alertes de surveillance et ITOM en temps opportun.
Réduisez les difficultés de configuration grâce au libre-service guidé pour intégrer des équipes distribuées avec des données séparées, un accès renforcé et une gouvernance minimale de la part de l’informatique centrale.

Lorsque SRM est activé, plusieurs modules d’extension et applications sont également installés. Pour plus d'informations, consultez Modules d’extension ou applications installés avec Intégrité ITOM.

SRM utilisateurs

Tableau 1. Utilisateurs
Utilisateurs	Description	Contient des rôles
administrateur	Un administrateur ServiceNow est responsable de l'administration, du développement, de l'exploitation, de la formation et de la maintenance de la plateforme ServiceNow. Responsable de l'installation, il peut effectuer la configuration de l'Admin Center de l'Espace de travail pour l'exploitation des services de SRM.	Tout
Administrateur [srm_admin] Remarque : Il ne s'agit pas du rôle administrateur de ServiceNow	Les administrateurs peuvent gérer les paramètres, les configurations et les utilisateurs du compte. Les administrateurs peuvent effectuer les actions suivantes : Accéder à toutes les configurations SRM, les créer, les modifier ou les supprimer Ajouter des intégrations ou les gérer Créer des intégrations avec des outils de Surveillance de la performance des applications (APM) Configurer et gérer les indicateurs de fiabilité Configurer et gérer les politiques de budget d’erreur	Responsable Répondeur
Gestionnaire [srm_manager]	Les gestionnaires supervisent une équipe de SRE. Les gestionnaires affectent les SRE au calendrier d'astreinte de l'équipe, surveillent leurs performances, créent des procédures pour gérer les incidents et développent des solutions. Les gestionnaires assurent la résilience de tous les systèmes et des workflows DevOps. Les gestionnaires peuvent effectuer les actions suivantes dans le contexte de leurs équipes : Définir et configurer des équipes, des calendriers d’astreinte et des services. Ajouter et supprimer des utilisateurs tels que des intervenants et des gestionnaires pour les équipes dont ils font partie Ajouter des intégrations ou les gérer Créer des intégrations avec des outils de Surveillance de la performance des applications (APM) Configurer et gérer les indicateurs de fiabilité Configurer et gérer les politiques de budget d’erreur	Répondeur
Intervenant [srm_responder]	Un ingénieur SRE (Service Reliability Engineer) qui utilise SRM pour effectuer des tâches quotidiennes. Les intervenants sont les personnes qui sont d’astreinte, qui diagnostiquent et corrigent les incidents. Les intervenants ne peuvent accéder qu’aux configurations dont ils font partie. Ils ne peuvent accéder qu'aux alertes ou incidents pour lesquels ils disposent d'une autorisation. Les SRE peuvent effectuer les actions suivantes dans le contexte de leurs équipes : Configurer les services, les équipes et les intégrations Confirmer leurs calendriers d'astreinte Gérer les enregistrements d'incidents et d'alertes Mettre à jour les équipes qu’ils ont créées Ajouter d’autres intervenants Créer des intégrations avec des outils de Surveillance de la performance des applications (APM) Configurer et gérer les mesures de fiabilité Configurer et gérer les actions de budget d’erreur	Hérite de 17 rôles, dont les suivants : cmdb_read sn_sow.sow_user sn_sow_srm.srm_responder workspace_user slo_operator

Pour plus d'informations, consultez SRM Rôles et responsabilités.

Workflow SRM

Infographie montrant comment les intervenants, les gestionnaires et les administrateurs gèrent les équipes, enregistrent les services, définissent les SLO, surveillent les intégrations, répondent aux notifications et corrigent les incidents. Pour en savoir plus, reportez-vous à la description suivante.

Les équipes produit de l’informatique ou des secteurs d’activité fournissent en permanence de nouveaux services techniques et applicatifs. Exemple : nouveau portail de facturation client.
En plus de Gestion du SLO, les équipes ont accès à s’implémenter elles-mêmes sur SRM pour enregistrer ces services et définir des objectifs de niveau de service (SLO) afin d’assurer des résultats commerciaux. Exemple : 95 % de disponibilité mensuelle pour le portail de facturation.
Les intégrations de surveillance sont configurées par les équipes pour collecter l’intégrité en temps réel de ces services. Exemple : Observabilité du cloud.
La surveillance crée un indicateur de niveau de service (SLI) qui a un impact sur les alertes lorsque les services ne sont pas assez performants. L’automatisation regroupe et enrichit. Exemple : la latence du portail de facturation est supérieure à 7 s.
Lorsque les alertes indiquent une panne ou un impact client sur la dégradation, des incidents sont créés et des notifications d’astreinte informent les ressources d’équipe appropriées. Exemple : une équipe SRE de facturation est informée par appel téléphonique d’un problème de latence sur le portail de facturation.
Une fois que les incidents ont été diagnostiqués et corrigés en collaboration, les éléments d’action pour améliorer la résilience sont capturés. Exemple : l’équipe de facturation décide d’ajouter de la capacité de serveur Web supplémentaire.
La direction examine continuellement les performances des SLO, aide à prévenir les changements lorsque le budget d’erreur est épuisé et hiérarchise les initiatives d’amélioration pour les services sous-performants.

SRM avantages

Tableau 2. SRM avantages
Avantage	Fonctionnalité	Utilisateurs
Expérience en équipe	Travailler avec des équipes SRM	Répondeur, gestionnaire et administrateur de fiabilité des services
Inscription au service	Utiliser les services SRM	Répondeur, gestionnaire et administrateur de fiabilité des services
Intégrations prédéfinies	Utiliser des intégrations SRM	Répondeur, gestionnaire et administrateur de fiabilité des services
Mesurer l’intégrité du service	Utiliser les mesures de fiabilité	Répondeur, gestionnaire et administrateur de fiabilité des services
Couverture d’astreinte	Créer votre calendrier d'astreinte SRM	Répondeur, gestionnaire et administrateur de fiabilité des services
Corriger les alertes et les incidents de gravité élevée	Utiliser des tâches de fiabilité SRM	Répondeur, gestionnaire et administrateur de fiabilité des services

Ce qu'il faut explorer ensuite

Pour en savoir plus sur la configuration et l'utilisation de SRM, consultez :