Site Reliability Metrics

  • Freigeben Version: Washingtondc
  • Aktualisiert 1. Februar 2024
  • 1 Minute Lesedauer
  • Site Reliability Metrics (SRM) ist eine Anwendung, die Site Reliability Operations (SRO) erweitert. Sie dient als Signalzusammenfassungspunkt für APM-Warnungen (Application Performance Management).

    Ab dem Release Washington DC wird Site Reliability Metrics auf den Übergang in den Zustand „Veraltet“ vorbereitet. Es wird ausgeblendet und in neuen Instanzen nicht mehr installiert, aber weiterhin unterstützt. Weitere Informationen finden Sie im Artikel Deprecation Process [KB0867184] (Ausgliederungsprozess) in der Now Support Knowledge Base.

    Mit SRM können Site Reliability Engineers (SRE) Signale aus mehreren Quellen erfassen, SLO-Ziele (Service Level Objectives) festlegen, Fehlerbudgets (Error Budgets, EB) anzeigen und richtlinienbasierte Aktionen wie das Erstellen eines Incident oder das Senden einer Benachrichtigung basierend auf Fehlerbudget-Schwellenwerten aufrufen. SREs können die Service-Experience messen und die Release-Geschwindigkeit verwalten, indem sie wichtige Servicelevel-Indikatoren (SLIs) aus einem oder mehreren Leistungsmanagement-Tools bewerten. Die Auswertung und Zusammenfassung dieser Signale ermöglicht SREs, richtlinienbasierte Aktionen auszulösen und schnell auf sich ändernde Bedingungen zu reagieren.

    Site Reliability Engineers und Serviceverantwortliche können mit SRM sicherstellen, dass der von ihnen erbrachte Service die Erwartungen der Verbraucher erfüllt. Sie können die Qualität messen, indem sie Servicelevel-Ziele basierend auf SLI-Typen (z. B. Latenz, Durchsatz, Verfügbarkeit) festlegen und dann Fehlerbudgetrichtlinien verwenden, um eine oder mehrere richtlinienbasierte Aktionen auszulösen.

    Die wichtigsten Funktionen von SRM:
    • SLI-Signalzusammenfassung
    • Erstellen Sie auf Dauer und Anzahl basierende Servicelevel-Ziele.
    • Fehlerbudgets berechnen (EB)
    • Fehlerbudgetrichtlinien
    • Visualisierung von Fehlerbudgets

    Allgemeiner Workflow

    1. SRM nutzt SRO-Integrationen für die Signalzusammenfassung.
    2. Für den Service in SRM werden Zuverlässigkeitsindikatoren mit SLIs und SLOs erstellt.
    3. Wenn im APM-Tool eine qualifizierte Warnung für einen Service generiert wird, werden der kumulative Verstoß und die Fehlerbudgetwerte für die Zuverlässigkeitsindikatoren in SRM aktualisiert.
    4. Für den Service wird eine Fehlerbudgetrichtlinie erstellt, mit der Aktionen wie das Erstellen eines Incident, das Senden von Benachrichtigungen usw. ausgelöst werden, um Serviceprobleme zu beheben.

    Sehen Sie sich das folgende Video an, um ein allgemeines Verständnis von Site Reliability Metrics und den Verwendungsmöglichkeiten zu erhalten.