Site Reliability Metrics

  • リリースバージョン: Xanadu
  • 更新日 2024年08月01日
  • 所要時間:2分
  • Site Reliability Metrics (SRM) は、サイトリライアビリティオペレーション (SRO) を拡張するアプリケーションです。これは、Application Performance Management (APM) アラートのシグナルアグリゲーションポイントとして機能します。

    Washington DC リリース以降、Site Reliability Metrics は将来の廃止に備えて準備されます。これは非表示になり、新しいインスタンスにはインストールされなくなりますが、引き続きサポートされます。詳細については、Now Support ナレッジベース記事の「Deprecation Process (廃止プロセス) [KB0867184]」を参照してください。

    SRM を使用すると、サイト信頼性エンジニア (SRE) は複数のソースからのシグナルをキャプチャし、サービスレベル目標 (SLO) のターゲットを設定し、エラー予算 (EB) を表示し、エラー予算のしきい値に基づいてインシデントの作成や通知の送信など、ポリシーベースのアクションを起動できます。SRE は、1 つ以上のパフォーマンス管理ツールから調達された主要なサービスレベルインジケーター (SLI) を評価することで、サービスエクスペリエンスを測定し、リリース速度を管理できます。これらのシグナルの評価と集計により、SRE はポリシーベースのアクションをトリガーし、変化する条件に迅速に対応できます。

    サイト信頼性エンジニアとサービスオーナーは、SRM を使用して、提供するサービスが消費者の期待に応えることを確認できます。SLI のタイプ (遅延、スループット、可用性など) に基づいてサービスレベル目標を設定することで品質を測定し、エラー予算ポリシーを使用して、ポリシーベースのアクションを 1 つ以上トリガーできます。

    SRM アプリケーションの主な機能は次のとおりです。
    • SLI シグナルアグリゲーション
    • 期間とカウントに基づくサービスレベル目標の作成
    • エラー予算 (EB) の計算
    • エラー予算ポリシー
    • エラー予算の可視化

    高レベルのワークフロー

    1. SRM は、シグナルアグリゲーションに SRO 統合を活用します。
    2. SRM のサービスに対して、SLI と SLO を含む信頼性インジケーターが作成されます。
    3. APM ツールでサービスの認定アラートが生成されると、SRM の信頼性インジケーターの累積違反とエラー予算値が更新されます。
    4. サービスに対してエラー予算ポリシーが作成され、インシデントの作成や通知の送信などのアクションをトリガーして、サービスの問題を修正します。

    Site Reliability Metrics の一般的な理解と使用方法については、次のビデオをご覧ください。