Service Reliability Management erkunden

  • Freigeben Version: Xanadu
  • Aktualisiert 1. August 2024
  • 3 Minuten Lesedauer
  • Service Reliability Management (SRM) bietet Teams eine geführte Selfservice-Experience, mit der sie die Integrität ihrer technischen Services autonom verwalten können. Die Experience wird mit der Anwendung Service Operations Workspace erstellt und kombiniert ITOM- und ITSM-Funktionen in einem einzigen Service Operations-Workflow.

    SRM – Übersicht

    Optimieren Sie die Serviceintegrität mit Service Reliability Management (SRM) für Teams in der IT, die Site Reliability Engineering-Methoden (Site Reliability Engineering, SRE) übernehmen. SRM ist ein einzelner Betriebsarbeitsbereich, mit dem Teams die Zuverlässigkeit digitaler Services mit SRE verbessern können.
    • Verwenden Sie Rufbereitschaftseskalationen, um rechtzeitig auf Probleme zu reagieren, die durch Ihre Überwachung und ITOM-Warnungen identifiziert wurden.
    • Reduzieren Sie die Setup-Probleme mit geführtem Self-Service, um verteilte Teams mit getrennten Daten, ermöglichtem Zugriff und minimaler Governance von der zentralen IT einarbeiten zu lassen.

    Wenn SRM aktiviert ist, werden auch verschiedene Plugins und Anwendungen installiert. Weitere Informationen finden Sie unter Mit installierte Plugins oder Anwendungen ITOM-Integrität.

    SRM – Anwender

    Tabelle : 1. Anwender
    Anwender Beschreibung Enthält Rollen
    Administrator

    Ein ServiceNow-Administrator ist für Verwaltung, Entwicklung, Betrieb, Schulung und Wartung der ServiceNow Platform verantwortlich.

    Verantwortlich für die Installation und kann die Service Operations-Arbeitsbereich Admin Center-Konfiguration von SRM durchführen.

    Alle
    -Administrator [srm_admin]
    Hinweis:
    Nicht die ServiceNow-Rolle admin

    SRM-Administratoren können Accounteinstellungen, Konfigurationen und Benutzer verwalten.

    Administratoren können folgende Aktionen ausführen:
    • Alle SRM-Konfigurationen erstellen, bearbeiten oder löschen und darauf zugreifen.
    • Integrationen hinzufügen oder verwalten.
    • Integrationen mit APM-Tools (Application Performance Monitoring) erstellen
    • Zuverlässigkeitsindikatoren einrichten und verwalten.
    • Fehlerbudgetrichtlinien einrichten und verwalten.
    • Manager
    • Beantworter
    -Manager [srm_manager] Manager überwachen ein Team von SREs. Manager weisen dem Rufbereitschaftszeitplan des Teams SREs zu, überwachen ihre Leistung, erstellen Verfahren zur Behandlung von Incidents und entwickeln Lösungen. Manager stellen über alle Systeme und DevOps-Workflows hinweg Resilienz sicher.
    Manager können im Kontext ihrer Teams folgende Aktionen ausführen:
    • Teams, Rufbereitschaftszeitpläne und Services definieren und einrichten.
    • Benutzer wie Beantworter und Manager für die Teams hinzufügen und löschen, denen sie angehören.
    • Integrationen hinzufügen oder verwalten.
    • Integrationen mit APM-Tools (Application Performance Monitoring) erstellen
    • Zuverlässigkeitsindikatoren einrichten und verwalten.
    • Fehlerbudgetrichtlinien einrichten und verwalten.
    Beantworter
    Beantworter [srm_responder]

    Ein Service Reliability Engineer (SRE), der SRM zur Ausführung alltäglicher Aufgaben verwendet. Beantworter sind die Personen, die Rufbereitschaft haben und Incidents diagnostizieren und beheben.

    Beantworter können nur auf Konfigurationen zugreifen, denen sie angehören. Sie können nur auf die Warnungen oder Incidents zugreifen, für die sie Berechtigungen haben.

    SREs können im Kontext ihrer Teams folgende Aktionen ausführen:
    • Services, Teams und Integrationen einrichten
    • Eigene Rufbereitschaftszeitpläne bestätigen
    • Incident- und Warnungsdatensätze verwalten
    • Die von ihnen erstellten Teams aktualisieren
    • Fügen Sie weitere Beantworter hinzu
    • Integrationen mit APM-Tools (Application Performance Monitoring) erstellen
    • Zuverlässigkeitsmetriken einrichten und verwalten
    • Fehlerbudgetaktionen einrichten und verwalten
    Erbt 17 Rollen, darunter die folgenden:
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • slo_operator

    Weitere Informationen finden Sie unter SRM Rollen und Zuständigkeiten.

    SRM – Workflow

    Infografik, die zeigt, wie Beantworter, Manager und Administratoren Teams verwalten, Services registrieren, SLO definieren, Integrationen überwachen, auf Benachrichtigungen reagieren und Incidents beheben. Einzelheiten finden Sie in der nachfolgenden Beschreibung.
    1. Produktteams in IT oder Branchen liefern kontinuierlich neue technische und Anwendungsservices. Beispiel: Neues Kundenabrechnungsportal.
    2. Zusammen mit SLO-Managementkönnen sich Teams in SRM selbst implementieren, um diese Services zu registrieren und Servicelevel-Ziele (Service Level Objectives, SLO) zu definieren, um Geschäftsergebnisse sicherzustellen. Beispiel: 95 % monatliche Verfügbarkeit für Abrechnungsportal.
    3. Überwachungsintegrationen werden von den -Teams eingerichtet, um die Echtzeitintegrität dieser Services zu erfassen. Beispiel: Cloud Observability.
    4. Die Überwachung erstellt einen Servicelevel-Indikator (SLI), der sich auf Warnungen auswirkt, wenn Services unterdurchschnittlich abschneiden. Automatisierungsgruppen und -bereicherungen Beispiel: Die Latenz des Abrechnungsportals überschreitet 7 s.
    5. Wenn die Warnungen auf einen Ausfall oder eine Verschlechterung mit Auswirkungen auf den Kunden hinweisen, werden Incidents erstellt, und die entsprechenden Teamressourcen werden durch Rufbereitschaftsbenachrichtigungen benachrichtigt. Beispiel: Ein SRE-Team für Abrechnungen wird per Telefon über ein Latenzproblem im Abrechnungsportal benachrichtigt.
    6. Nach der gemeinschaftlichen Diagnose und Behebung von Incidents werden Aktionselemente zur Verbesserung der Resilienz erfasst. Beispiel: Das Abrechnungsteam beschließt, zusätzliche Webserverkapazität hinzuzufügen.
    7. Das Management überprüft kontinuierlich die SLO-Leistung, hilft, Änderungen zu verhindern, wenn das Fehlerbudget ausgeschöpft ist, und priorisiert Verbesserungsinitiativen für leistungsschwache Services.

    SRM – Vorteile

    Tabelle : 2. SRM – Vorteile
    Vorteil Funktion Anwender
    Teambasierte Experience Mit SRM-Teams arbeiten Beantworter, Manager und Administrator für Service Reliability
    Serviceregistrierung Mit SRM-Services arbeiten Beantworter, Manager und Administrator für Service Reliability
    Vorgefertigte Integrationen Mit SRM-Integrationen arbeiten Beantworter, Manager und Administrator für Service Reliability
    Zum Messen der Serviceintegrität Mit Zuverlässigkeitsmetriken arbeiten Beantworter, Manager und Administrator für Service Reliability
    Bereitschaftsabdeckung Eigene SRM-Rufbereitschaftspläne erstellen Beantworter, Manager und Administrator für Service Reliability
    Korrigieren Sie Warnungen und Incidents mit hohem Schweregrad Mit SRM-Zuverlässigkeitsaufgaben arbeiten Beantworter, Manager und Administrator für Service Reliability