サービスリライアビリティ管理の詳細
サービスリライアビリティ管理 (SRM) は、チームがテクニカルサービスの健全性を自律的に管理するためのガイド付きセルフサービスエクスペリエンスを提供します。このエクスペリエンスは、サービスオペレーションワークスペースアプリケーションを使用して構築され、ITOM と ITSM の機能を 1 つのサービスオペレーションワークフローに統合します。
SRM の概要
サイト信頼性エンジニアリング (SRE) プラクティスを採用している IT チーム向けのサービスリライアビリティ管理 (SRM) を使用して、サービスヘルスを最適化します。SRM は、チームが SRE を使用してデジタルサービスの信頼性を向上できるようにする単一の運用ワークスペースです。
- オンコールエスカレーションを使用して、監視と ITOM アラートによって特定された問題に適切なタイミングで応答します。
- ガイド付きセルフサービスでセットアップの手間を軽減して、分散したチームをオンボーディングします。また、分離されたデータを使用し、権限化されたアクセスを提供し、中心となる IT を使用して最小限の管理を行います。
SRM をアクティブ化すると、いくつかのプラグインとアプリケーションもインストールされます。詳細については、「ITOM ヘルス とともにインストールされるプラグインまたはアプリケーション」を参照してください。
SRM ユーザー
| ユーザー | 説明 | 含まれるロール |
|---|---|---|
| アドミン |
ServiceNow アドミニストレーターは、ServiceNow プラットフォームの管理、開発、運用、教育、およびメンテナンスを担当します。 インストールを担当し、SRM の サービスオペレーションワークスペース アドミンセンターの構成を実行できます。 |
すべて |
| アドミニストレーター [srm_admin] 注: ServiceNow admin ロールではない |
SRM アドミニストレーターは、アカウント設定、構成、およびユーザーを管理できます。 アドミニストレーターは、以下のアクションを実行できます。
|
|
| マネージャー [srm_manager] | マネージャーは、SRE チームを監督します。マネージャーは、チームのオンコールスケジュールに SRE を割り当てて、パフォーマンスを監視し、インシデントに対処するための手順を作成して、ソリューションを開発します。マネージャーは、すべてのシステムと DevOps ワークフロー全体のレジリエンスを確保します。 マネージャーは、チームのコンテキスト内で次のアクションを実行できます。
|
レスポンダー |
| レスポンダー [srm_responder] |
SRM を使用して日常業務を実行するサービス信頼性エンジニア (SRE)。レスポンダーは、オンコールでインシデントを診断および修復します。 レスポンダーは、自分が属する構成にのみアクセスできます。権限を持つアラートまたはインシデントにのみアクセスできます。 SRE は、チームのコンテキスト内で次のアクションを実行できます。
|
以下を含む 17 のロールを継承します。
|
詳細については、「SRM のロールと責任」を参照してください。
SRM のワークフロー
- IT または LOB (基幹業務) の製品チームは、新しい技術サービスやアプリケーションサービスを継続的に提供します。例:新規顧客請求ポータル。
- SLO 管理 に加えて、チームは自分たちで SRM を実行してこれらのサービスを登録し、確実にビジネス成果を出すためのサービスレベル目標 (SLO) を定義できます。例:請求ポータルの月間可用性が 95%。
- Monitoring 統合はチームが設定し、これらのサービスの正常性をリアルタイムに収集します。例:クラウド可観測性。
- Monitoring では、サービスのパフォーマンスが低下している場合に、アラートに影響を与えるサービスレベルインジケーター (SLI) が作成されます。自動化のグループ化と拡張。例:請求ポータルの待機時間が 7 秒を超えている。
- アラートが機能停止または顧客に影響を与えるデグレードを示している場合は、インシデントが作成され、オンコール通知が適切なチームリソースに通知されます。例:請求ポータルの遅延の問題は、請求処理 SRE チームに電話で通知される。
- インシデントを協力して診断し、修復した後、レジリエンスを高めるためのアクションアイテムがキャプチャされます。例:請求チームは、Web サーバーの容量を追加することを決定した。
- 経営陣は、SLO パフォーマンスを継続的にレビューし、エラー予算が尽きたときに変更されないようにし、パフォーマンスの低いサービスの改善イニシアチブを優先させます。
SRM のメリット
| 価値・効果 | 機能 | ユーザー |
|---|---|---|
| チームベースのエクスペリエンス | SRM チームの操作 | サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター |
| サービス登録 | SRM サービスの操作 | サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター |
| 事前に構築された統合 | SRM 統合の操作 | サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター |
| サービスヘルスの測定 | 信頼性メトリクスの操作 | サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター |
| オンコールカバー範囲 | SRM オンコールスケジュールの作成 | サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター |
| 重大度の高いアラートとインシデントの修復 | SRM の信頼性タスクの操作 | サービスリライアビリティレスポンダー、マネージャー、およびアドミニストレーター |
次に探索する内容
SRM の構成と使用の詳細については、以下を参照してください。