サービスリライアビリティ管理の詳細

  • リリースバージョン: Xanadu
  • 更新日 2024年08月01日
  • 所要時間:5分
  • サービスリライアビリティ管理 (SRM) は、チームがテクニカルサービスの健全性を自律的に管理するためのガイド付きセルフサービスエクスペリエンスを提供します。このエクスペリエンスは、サービスオペレーションワークスペースアプリケーションを使用して構築され、ITOM と ITSM の機能を 1 つのサービスオペレーションワークフローに統合します。

    SRM の概要

    サイト信頼性エンジニアリング (SRE) プラクティスを採用している IT チーム向けのサービスリライアビリティ管理 (SRM) を使用して、サービスヘルスを最適化します。SRM は、チームが SRE を使用してデジタルサービスの信頼性を向上できるようにする単一の運用ワークスペースです。
    • オンコールエスカレーションを使用して、監視と ITOM アラートによって特定された問題に適切なタイミングで応答します。
    • ガイド付きセルフサービスでセットアップの手間を軽減して、分散したチームをオンボーディングします。また、分離されたデータを使用し、権限化されたアクセスを提供し、中心となる IT を使用して最小限の管理を行います。

    SRM をアクティブ化すると、いくつかのプラグインとアプリケーションもインストールされます。詳細については、「ITOM ヘルス とともにインストールされるプラグインまたはアプリケーション」を参照してください。

    SRM ユーザー

    表 : 1. ユーザー
    ユーザー 説明 含まれるロール
    アドミン

    ServiceNow アドミニストレーターは、ServiceNow プラットフォームの管理、開発、運用、教育、およびメンテナンスを担当します。

    インストールを担当し、SRMサービスオペレーションワークスペース アドミンセンターの構成を実行できます。

    すべて
    アドミニストレーター [srm_admin]
    注:
    ServiceNow admin ロールではない

    SRM アドミニストレーターは、アカウント設定、構成、およびユーザーを管理できます。

    アドミニストレーターは、以下のアクションを実行できます。
    • すべての SRM 構成に対するアクセス、作成、編集、または削除。
    • 統合の追加または管理。
    • Application Performance Monitoring (APM) ツールとの統合の作成
    • 信頼性インジケーターのセットアップと維持。
    • エラー予算ポリシーのセットアップと管理。
    • マネージャー
    • レスポンダー
    マネージャー [srm_manager] マネージャーは、SRE チームを監督します。マネージャーは、チームのオンコールスケジュールに SRE を割り当てて、パフォーマンスを監視し、インシデントに対処するための手順を作成して、ソリューションを開発します。マネージャーは、すべてのシステムと DevOps ワークフロー全体のレジリエンスを確保します。
    マネージャーは、チームのコンテキスト内で次のアクションを実行できます。
    • チーム、オンコールスケジュール、およびサービスの定義とセットアップ。
    • レスポンダーなどのユーザーや、所属するチームのマネージャーの追加と削除。
    • 統合の追加または管理。
    • Application Performance Monitoring (APM) ツールとの統合の作成
    • 信頼性インジケーターのセットアップと維持。
    • エラー予算ポリシーのセットアップと管理。
    レスポンダー
    レスポンダー [srm_responder]

    SRM を使用して日常業務を実行するサービス信頼性エンジニア (SRE)。レスポンダーは、オンコールでインシデントを診断および修復します。

    レスポンダーは、自分が属する構成にのみアクセスできます。権限を持つアラートまたはインシデントにのみアクセスできます。

    SRE は、チームのコンテキスト内で次のアクションを実行できます。
    • サービス、チーム、統合のセットアップ
    • オンコールスケジュールの確認
    • インシデントとアラートレコードの管理
    • 作成したチームの更新
    • 他のレスポンダーの追加
    • Application Performance Monitoring (APM) ツールとの統合の作成
    • 信頼性測定基準のセットアップと管理
    • エラー予算アクションのセットアップと管理
    以下を含む 17 のロールを継承します。
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • slo_operator

    詳細については、「SRM のロールと責任」を参照してください。

    SRM のワークフロー

    レスポンダー、マネージャー、およびアドミニストレーターが、チームの管理、サービスの登録、SLO の定義、統合の監視、通知への応答、およびインシデントの修復を行う方法を示すインフォグラフィック。詳細については、以下の説明を参照してください。
    1. IT または LOB (基幹業務) の製品チームは、新しい技術サービスやアプリケーションサービスを継続的に提供します。例:新規顧客請求ポータル。
    2. SLO 管理 に加えて、チームは自分たちで SRM を実行してこれらのサービスを登録し、確実にビジネス成果を出すためのサービスレベル目標 (SLO) を定義できます。例:請求ポータルの月間可用性が 95%。
    3. Monitoring 統合はチームが設定し、これらのサービスの正常性をリアルタイムに収集します。例:クラウド可観測性。
    4. Monitoring では、サービスのパフォーマンスが低下している場合に、アラートに影響を与えるサービスレベルインジケーター (SLI) が作成されます。自動化のグループ化と拡張。例:請求ポータルの待機時間が 7 秒を超えている。
    5. アラートが機能停止または顧客に影響を与えるデグレードを示している場合は、インシデントが作成され、オンコール通知が適切なチームリソースに通知されます。例:請求ポータルの遅延の問題は、請求処理 SRE チームに電話で通知される。
    6. インシデントを協力して診断し、修復した後、レジリエンスを高めるためのアクションアイテムがキャプチャされます。例:請求チームは、Web サーバーの容量を追加することを決定した。
    7. 経営陣は、SLO パフォーマンスを継続的にレビューし、エラー予算が尽きたときに変更されないようにし、パフォーマンスの低いサービスの改善イニシアチブを優先させます。

    SRM のメリット

    表 : 2. SRM のメリット
    価値・効果 機能 ユーザー
    チームベースのエクスペリエンス SRM チームの操作 サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター
    サービス登録 SRM サービスの操作 サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター
    事前に構築された統合 SRM 統合の操作 サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター
    サービスヘルスの測定 信頼性メトリクスの操作 サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター
    オンコールカバー範囲 SRM オンコールスケジュールの作成 サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター
    重大度の高いアラートとインシデントの修復 SRM の信頼性タスクの操作 サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター