Explorer Gestion de la fiabilité des services

  • Rversion finale: Xanadu
  • Mis à jour 1 août 2024
  • 4 minutes de lecture
  • Gestion de la fiabilité des services (SRM) fournit une expérience guidée en libre-service permettant aux équipes de gérer de façon autonome l’intégrité de leurs services techniques. L’expérience est créée à l’aide de l’application Espace de travail pour l’exploitation des services et combine les options ITOM et ITSM en un seul workflow d’exploitation des services.

    Vue d'ensemble de SRM

    Optimisez l’intégrité du service avec Gestion de la fiabilité des services (SRM) pour les équipes informatiques qui adoptent des pratiques SRE (Site Reliability Engineering). SRM est un espace de travail d’opérations unique qui permet aux équipes d’améliorer la fiabilité des services numériques avec SRE.
    • Utilisez les escalades d’astreinte pour répondre aux problèmes identifiés par vos alertes de surveillance et ITOM en temps opportun.
    • Réduisez les difficultés de configuration grâce au libre-service guidé pour intégrer des équipes distribuées avec des données séparées, un accès renforcé et une gouvernance minimale de la part de l’informatique centrale.

    Lorsque SRM est activé, plusieurs modules d’extension et applications sont également installés. Pour plus d'informations, consultez Modules d’extension ou applications installés avec Intégrité ITOM.

    SRM utilisateurs

    Tableau 1. Utilisateurs
    Utilisateurs Description Contient des rôles
    administrateur

    Un administrateur ServiceNow est responsable de l'administration, du développement, de l'exploitation, de la formation et de la maintenance de la plateforme ServiceNow.

    Responsable de l'installation, il peut effectuer la configuration de l'Admin Center de l'Espace de travail pour l'exploitation des services de SRM.

    Tout
    Administrateur [srm_admin]
    Remarque :
    Il ne s'agit pas du rôle administrateur de ServiceNow

    Les administrateurs peuvent gérer les paramètres, les configurations et les utilisateurs du compte.

    Les administrateurs peuvent effectuer les actions suivantes :
    • Accéder à toutes les configurations SRM, les créer, les modifier ou les supprimer
    • Ajouter des intégrations ou les gérer
    • Créer des intégrations avec des outils de Surveillance de la performance des applications (APM)
    • Configurer et gérer les indicateurs de fiabilité
    • Configurer et gérer les politiques de budget d’erreur
    • Responsable
    • Répondeur
    Gestionnaire [srm_manager] Les gestionnaires supervisent une équipe de SRE. Les gestionnaires affectent les SRE au calendrier d'astreinte de l'équipe, surveillent leurs performances, créent des procédures pour gérer les incidents et développent des solutions. Les gestionnaires assurent la résilience de tous les systèmes et des workflows DevOps.
    Les gestionnaires peuvent effectuer les actions suivantes dans le contexte de leurs équipes :
    • Définir et configurer des équipes, des calendriers d’astreinte et des services.
    • Ajouter et supprimer des utilisateurs tels que des intervenants et des gestionnaires pour les équipes dont ils font partie
    • Ajouter des intégrations ou les gérer
    • Créer des intégrations avec des outils de Surveillance de la performance des applications (APM)
    • Configurer et gérer les indicateurs de fiabilité
    • Configurer et gérer les politiques de budget d’erreur
    Répondeur
    Intervenant [srm_responder]

    Un ingénieur SRE (Service Reliability Engineer) qui utilise SRM pour effectuer des tâches quotidiennes. Les intervenants sont les personnes qui sont d’astreinte, qui diagnostiquent et corrigent les incidents.

    Les intervenants ne peuvent accéder qu’aux configurations dont ils font partie. Ils ne peuvent accéder qu'aux alertes ou incidents pour lesquels ils disposent d'une autorisation.

    Les SRE peuvent effectuer les actions suivantes dans le contexte de leurs équipes :
    • Configurer les services, les équipes et les intégrations
    • Confirmer leurs calendriers d'astreinte
    • Gérer les enregistrements d'incidents et d'alertes
    • Mettre à jour les équipes qu’ils ont créées
    • Ajouter d’autres intervenants
    • Créer des intégrations avec des outils de Surveillance de la performance des applications (APM)
    • Configurer et gérer les mesures de fiabilité
    • Configurer et gérer les actions de budget d’erreur
    Hérite de 17 rôles, dont les suivants :
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • slo_operator

    Pour plus d'informations, consultez SRM Rôles et responsabilités.

    Workflow SRM

    Infographie montrant comment les intervenants, les gestionnaires et les administrateurs gèrent les équipes, enregistrent les services, définissent les SLO, surveillent les intégrations, répondent aux notifications et corrigent les incidents. Pour en savoir plus, reportez-vous à la description suivante.
    1. Les équipes produit de l’informatique ou des secteurs d’activité fournissent en permanence de nouveaux services techniques et applicatifs. Exemple : nouveau portail de facturation client.
    2. En plus de Gestion du SLO, les équipes ont accès à s’implémenter elles-mêmes sur SRM pour enregistrer ces services et définir des objectifs de niveau de service (SLO) afin d’assurer des résultats commerciaux. Exemple : 95 % de disponibilité mensuelle pour le portail de facturation.
    3. Les intégrations de surveillance sont configurées par les équipes pour collecter l’intégrité en temps réel de ces services. Exemple : Observabilité du cloud.
    4. La surveillance crée un indicateur de niveau de service (SLI) qui a un impact sur les alertes lorsque les services ne sont pas assez performants. L’automatisation regroupe et enrichit. Exemple : la latence du portail de facturation est supérieure à 7 s.
    5. Lorsque les alertes indiquent une panne ou un impact client sur la dégradation, des incidents sont créés et des notifications d’astreinte informent les ressources d’équipe appropriées. Exemple : une équipe SRE de facturation est informée par appel téléphonique d’un problème de latence sur le portail de facturation.
    6. Une fois que les incidents ont été diagnostiqués et corrigés en collaboration, les éléments d’action pour améliorer la résilience sont capturés. Exemple : l’équipe de facturation décide d’ajouter de la capacité de serveur Web supplémentaire.
    7. La direction examine continuellement les performances des SLO, aide à prévenir les changements lorsque le budget d’erreur est épuisé et hiérarchise les initiatives d’amélioration pour les services sous-performants.

    SRM avantages

    Tableau 2. SRM avantages
    Avantage Fonctionnalité Utilisateurs
    Expérience en équipe Travailler avec des équipes SRM Répondeur, gestionnaire et administrateur de fiabilité des services
    Inscription au service Utiliser les services SRM Répondeur, gestionnaire et administrateur de fiabilité des services
    Intégrations prédéfinies Utiliser des intégrations SRM Répondeur, gestionnaire et administrateur de fiabilité des services
    Mesurer l’intégrité du service Utiliser les mesures de fiabilité Répondeur, gestionnaire et administrateur de fiabilité des services
    Couverture d’astreinte Créer votre calendrier d'astreinte SRM Répondeur, gestionnaire et administrateur de fiabilité des services
    Corriger les alertes et les incidents de gravité élevée Utiliser des tâches de fiabilité SRM Répondeur, gestionnaire et administrateur de fiabilité des services