Explorer Gestion de la fiabilité des services

  • Rversion finale: Yokohama
  • Mis à jour 30 janv. 2025
  • 4 minutes de lecture
  • Gestion de la fiabilité des services (SRM) fournit une expérience guidée en libre-service aux équipes pour gérer l’intégrité des services. L’expérience est créée à l’aide de l’application Espace de travail pour l’exploitation des services et combine les options ITOM et ITSM en un seul workflow.

    Vue d'ensemble de SRM

    Optimisez l’intégrité du service avec les pratiques SRE (Site Reliability Engineering). SRM est un espace de travail d’opérations unique qui permet aux équipes d’améliorer la fiabilité des services numériques avec SRE.
    • Utilisez les escalades d’astreinte pour répondre aux problèmes en temps opportun.
    • Réduisez les frictions de configuration grâce au libre-service guidé pour intégrer des équipes distribuées avec des données séparées, un accès habilité et une gouvernance minimale de l’informatique centrale.

    Lorsqu’il SRM est installé, plusieurs modules d’extension et applications sont également activés. Pour plus d'informations, consultez Modules d’extension ou applications installés avec Intégrité ITOM.

    SRM utilisateurs

    Tableau 1. Utilisateurs
    Utilisateurs Description Contient des rôles
    administrateur

    Un administrateur ServiceNow est responsable de l'administration, du développement, de l'exploitation, de la formation et de la maintenance de la plateforme ServiceNow.

    Responsable de l'installation, il peut effectuer la configuration de l'Admin Center de l'Espace de travail pour l'exploitation des services de SRM.

    Tout
    Administrateur [srm_admin]
    Remarque :
    Ce rôle diffère du ServiceNow rôle administrateur.

    Les administrateurs de SRM peuvent gérer les paramètres, les configurations et les utilisateurs du compte.

    Les administrateurs peuvent effectuer les actions suivantes :
    • Accéder à toutes les configurations SRM, les créer, les modifier ou les supprimer
    • Ajouter des intégrations ou les gérer
    • Créez des intégrations avec des outils de Surveillance de la performance des applications (APM).
    • Configurer et gérer les mesures de fiabilité.
    • Configurer et gérer les politiques de budget d’erreur.
    • Responsable
    • Répondeur
    Gestionnaire [srm_manager] Les gestionnaires supervisent une équipe de SRE. Les gestionnaires affectent les SRE au calendrier d’astreinte de l’équipe, surveillent leurs performances et créent des procédures pour gérer les incidents et développer des solutions. Les gestionnaires favorisent la résilience de tous les systèmes et des workflows DevOps.
    Les gestionnaires peuvent effectuer les actions suivantes dans le contexte de leurs équipes :
    • Définissez et configurez des équipes, des calendriers d’astreinte et des services.
    • Ajouter et supprimer des utilisateurs tels que des intervenants et des gestionnaires pour les équipes dont ils font partie.
    • Ajouter des intégrations ou les gérer
    • Créer des intégrations avec des outils de Surveillance de la performance des applications (APM).
    • Configurer et gérer les mesures de fiabilité.
    • Configurer et gérer les politiques de budget d’erreur.
    Répondeur
    Intervenant [srm_responder]

    Un ingénieur SRE (Service Reliability Engineer) qui utilise SRM pour effectuer des tâches quotidiennes. Les intervenants sont les personnes qui sont d’astreinte et qui diagnostiquent et corrigent les incidents.

    Les intervenants ne peuvent accéder qu’aux configurations dont ils font partie. Ils ne peuvent accéder qu'aux alertes ou incidents pour lesquels ils disposent d'une autorisation.

    Les SRE peuvent effectuer les actions suivantes dans le contexte de leurs équipes :
    • Configurer des services, des équipes et des intégrations.
    • Confirmer leurs calendriers d’astreinte.
    • Gérez les enregistrements d’incidents et d’alertes.
    • Mettre à jour les équipes qu’ils ont créées.
    • Ajouter d'autres intervenants
    • Créez des intégrations avec des outils de Surveillance de la performance des applications (APM).
    • Configurer et gérer les mesures de fiabilité.
    • Configurer et gérer les actions de budget d’erreur.
    Hérite de 17 rôles, dont les suivants :
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • slo_operator

    Pour plus d'informations, consultez SRM Rôles et responsabilités.

    Workflow SRM

    Infographie montrant comment les intervenants, les gestionnaires et les administrateurs gèrent les équipes, enregistrent les services, définissent les SLO, surveillent les intégrations, répondent aux notifications et corrigent les incidents. Pour en savoir plus, reportez-vous à la description suivante.
    1. Les équipes produit dans les départements IT ou Secteur d’activité fournissent en permanence de nouveaux services techniques et d’application. Exemple : portail de facturation des nouveaux clients.
    2. De plus Gestion du SLO, les équipes peuvent enregistrer des services et définir des objectifs de niveau de service (SLO), ce qui les aide à atteindre des résultats commerciaux. Exemple : disponibilité mensuelle de 95 % pour le portail de facturation.
    3. Des intégrations de surveillance sont configurées par les équipes pour collecter l’intégrité en temps réel de ces services. Exemple : Observabilité du cloud.
    4. La surveillance crée des indicateurs de niveau de service (SLI) qui ont un impact sur les alertes lorsque les services sont sous-performants. L’automatisation regroupe et enrichit. Exemple : la latence du portail de facturation dépasse 7 s.
    5. Lorsque les alertes indiquent une panne ou une dégradation ayant un impact sur le client, des incidents sont créés et des notifications d’astreinte informent les ressources d’équipe appropriées. Exemple : une équipe SRE de facturation est informée par téléphone d’un problème de latence sur le portail de facturation.
    6. Une fois que les équipes ont collaboré au diagnostic et à la résolution des incidents, elles identifient les éléments d’action pour améliorer la résilience du système. Exemple : l’équipe de facturation décide d’ajouter de la capacité de serveur Web supplémentaire.
    7. La direction examine en permanence les performances SLO, aide à prévenir les changements lorsque le budget d’erreur est épuisé et donne la priorité aux initiatives d’amélioration des services sous-performants.

    SRM avantages

    Avantage Fonctionnalité Utilisateurs
    Expérience basée sur l’équipe Travailler avec des équipes SRM Administrateurs, gestionnaires et intervenants SRM
    Inscription au service Utiliser les services SRM Administrateurs, gestionnaires et intervenants SRM
    Intégrations prédéfinies Utiliser des intégrations SRM Administrateurs, gestionnaires et intervenants SRM
    Mesurer l’intégrité du service Utiliser les mesures de fiabilité Administrateurs, gestionnaires et intervenants SRM
    Couverture d’astreinte Créer votre calendrier d'astreinte SRM Administrateurs, gestionnaires et intervenants SRM
    Rattraper les alertes et incidents de gravité élevée Utiliser des tâches de fiabilité SRM Administrateurs, gestionnaires et intervenants SRM