Mit Zuverlässigkeitsmetriken arbeiten
Verwenden Sie die Zuverlässigkeitsmetriken SRM, um Servicelevel-Indikatoren (SLI), Servicelevel-Ziele (SLO) und Fehlerbudgetrichtlinien zu definieren, Ihre Serviceintegrität nachzuverfolgen und die erforderlichen Maßnahmen zu ergreifen.
Allgemeiner Workflow
- SRM nutzt Integrationen für die Signalzusammenfassung.
- Für den Service in SRM werden Zuverlässigkeitsindikatoren mit SLIs und SLOs erstellt.
- Wenn für einen Service eine qualifizierte Warnung generiert wird, werden für die Zuverlässigkeitsindikatoren in SRM kumulative Werte für Verstoß und Fehlerbudget aktualisiert.
- Für den Service wird eine Fehlerbudgetrichtlinie erstellt, mit der Aktionen wie das Erstellen eines Incident oder das Senden einer E-Mail ausgelöst werden, um Serviceprobleme zu beheben. Fehlerbudgets sind durch die Kategorie eingeschränkt.
Die wichtigsten Funktionen der Metriken von SRM sind:
- SLI-Signalzusammenfassung
- Erstellen Sie auf Dauer und Anzahl basierende Servicelevel-Ziele.
- Fehlerbudgets berechnen (EB)
- Fehlerbudgetrichtlinien
- Visualisierung von Fehlerbudgets
Navigieren Sie zu Registerkarte, um alle zugehörigen kritischen Daten für die Metriken „Zuverlässigkeit“ und „Fehlerbudget“ anzuzeigen. Weitere Informationen finden Sie unter Mit SRM-Services arbeiten.
Hinweis:
Punktzahlen sind nur sichtbar, wenn SLIs, SLOs und Fehlerbudgets erstellt wurden und diese betroffen sind. Ausführliche Informationen finden Sie unter Erstellen Sie SLO-, SLI- und Fehlerbudgetrichtlinien.
Registerkarte „Zuverlässigkeitsmetriken“
Navigieren Sie zu Zeigen Sie auf der Registerkarte die Servicelevel-Ziele (Service Level Objectives, SLO) für einen Service an.
Hinweis:
Durch das Aktualisieren des SLO wird der Status geändert. Dies führt auch dazu, dass dieser SLO-Datensatz zurückgezogen und eine neue Kopie für genaue Überwachungszwecke erstellt wird.
Zuverlässigkeitsmetriken
Servicelevel-Ziele zeigen die folgenden Details an:
- Servicelevel-Ziel: Name des SLO. Das SLO ist ein Zielwert oder das Ziel, das Ihr Team erreichen muss, um Ihre Servicelevel-Vereinbarung (Service Level Agreement, SLA) zu erfüllen.
- SLI-Typ: Die tatsächlichen Zahlen zur Leistung Ihres Services. Die SLI-Typen sind:
- Verfügbarkeit: Prozentsatz der Zeit, während der Ihr Service verfügbar ist. Wird auch als Betriebszeit bezeichnet. Verfügbarkeit ist die grundlegende Metrik für Zuverlässigkeit. (Standard).
- Fehler: Misst die Häufigkeit Ihrer Servicefehler.
- Latenz: Zeit, die für die Bearbeitung einer Anforderung benötigt wird. Die tatsächlich verstrichene Zeit.
- Sättigung: Misst die „Auslastung“ des Systems, wobei die am stärksten eingeschränkten Ressourcen hervorgehoben werden.
- Compliance-Zeitraum: Die für den SLO festgelegte Dauer.
- Monat: Als Dauer wird der aktuelle Monat betrachtet. Wenn das aktuelle Datum beispielsweise der 26. Januar ist, wird die Dauer vom 1. Januar bis zum 31. Januar angenommen.
- Rollend, 7 Tage: Für die Dauer werden 7 Tage ab dem aktuellen Datum angenommen.
- Rollend, 30 Tage: Für die Dauer werden 30 Tage ab dem aktuellen Datum angenommen. Wenn das aktuelle Datum beispielsweise der 26. Januar ist, wird die Dauer ab dem 25. Dezember berücksichtigt.
- Rollend, 90 Tage: Für die Dauer werden 90 Tage ab dem aktuellen Datum angenommen. Wenn das aktuelle Datum beispielsweise der 26. Januar ist, wird die Dauer ab dem 25. Oktober berücksichtigt.
- Status: Status des SLO. Die Auswahlmöglichkeiten lauten wie folgt:
- Entwurf: Der SLO wird in Ihrer Instanz noch nicht ausgeführt. Sie können neue SLIs hinzufügen oder vorhandene SLIs aktualisieren, und Sie können den SLO löschen.
- Wird ausgeführt: Der SLO ist in Ihrer Instanz aktiv. Sie können den SLO bearbeiten, stilllegen oder löschen.Hinweis:Wenn Sie einen SLO im Ausführungsstatus bearbeiten, wird er deaktiviert und eine neue Kopie wird erstellt.
- Deaktiviert: Der SLO wird in Ihrer Instanz nicht mehr ausgeführt. Sie können ihn reaktivieren.
- Ziel (%): Prozentsatz der gewünschten SLI-Leistung.
- Grenzwertvorkommen: Anzahl der aufgetretenen Überschreitungen des Grenzwerts. (Verwendet von Anzahl SLO-Typen.)
- Servicelevel-Indikator: Tatsächliche Zahlen zur Leistung Ihres Services. Messbare Fakten, die anzeigen, ob Sie die Erwartungen der Kunden erfüllen.
- Fehlerbudget: Gibt an, wie viel Fehlerbudget Sie ausgeben können. Beim Erstellen eines SLO wird das Fehlerbudget basierend auf den Angaben für Compliance-Zeitraum und Ziel (%) berechnet.
- Verbleibendes Fehlerbudget: Gibt an, wie viel Fehlerbudget verbleibt.
- Verbleibende aufgetretene Verstöße: Anzahl der verbleibenden Verstöße, bevor der Grenzwert erreicht wird.
Hinweis:
Die Datensätze für den Verlauf des Servicelevel-Ziels [sn_sow_srm_slo_history] und der Servicelevel-Indikator-Metrik [sn_sow_srm_sli_metric] werden nach einem Jahr archiviert und fünf Jahre danach gelöscht. Es wird erwartet, dass dies zu einer höheren Leistung bei gleicher Dauer der Datenspeicherung führt. Für archivierte Tabellen werden keine Abfragen ausgeführt.