Site Reliability Metrics 基本用語

  • リリースバージョン: Xanadu
  • 更新日 2024年08月01日
  • 所要時間:1分
  • Site Reliability Metrics (SRM) を理解し、その機能を使用するための基本用語のクイックガイドです。

    表 : 1. SRM で使用される用語
    期間 説明
    アプリケーションパフォーマンス管理 (APM) アプリケーションのパフォーマンスと可用性の監視と管理。APM は、複雑なアプリケーションパフォーマンスの問題を検出して診断し、期待されるサービスレベルを維持するよう努めています。
    サービスレベル管理 (SLM) ビジネスプロセスをサポートするために、プロバイダーと消費者の間でサービスレベルを合意するためのフレームワーク。サービスレベル管理には、Service Level Agreement (SLA)、運用レベルアグリーメント (OLA)、および基盤契約 (UC) が含まれています。
    Service Level Agreement (SLA) SLA は、プロバイダーと消費者の間で合意されたサービスのレベルを定義します。通常は、サービスが測定されるメトリクスと、合意されたサービスレベルが達成されない場合の救済またはペナルティが記載されています。
    サービスレベル目標 (SLO) SLI によって測定されるサービスレベルのターゲット値または値の範囲。
    サービスレベルインジケーター (SLI) 提供されるサービスレベルの、いくつかの側面に関する定量的測定。メトリクスは、SLO ターゲットを定義するために使用されます。
    測定された信頼性 約束したサービスを一貫した正確な方法で提供する機能。信頼性は、100% から機能停止を差し引くことで自動的に計算されます。
    エラー予算

    エラー予算は、指定された時間に費やすことができる SLO の量です。リリース速度の管理に使用できます。通常は、可用性、遅延などに基づいています。

    エラー予算ポリシー 設定されたしきい値を超えた場合に、インシデントの作成や通知の送信などのアクションをトリガーするサービスのために作成されたポリシーまたはルール。