서비스 신뢰성 관리 탐색

  • 릴리스 버전: Australia
  • 업데이트 날짜 2026년 03월 12일
  • 소요 시간: 4분
  • 서비스 신뢰성 관리 (SRM)는 팀이 서비스 상태를 관리할 수 있는 셀프 서비스, 안내 환경을 제공합니다. 이 환경은 서비스 운영 작업 공간 애플리케이션을 사용하여 구축되며 ITOM 및 ITSM 기능을 단일 워크플로우에 결합합니다.

    SRM 개요

    사이트 신뢰성 엔지니어링(SRE) 관행으로 서비스 상태를 최적화합니다. SRM 는 팀이 SRE를 통해 디지털 서비스의 신뢰성을 개선할 수 있도록 지원하는 단일 운영 작업 공간입니다.
    • 당직 에스컬레이션을 사용하여 적시에 문제에 대응합니다.
    • 안내식 셀프 서비스를 통해 설정 마찰을 줄여 분산된 팀을 온보딩하여 분리된 데이터, 강력한 액세스 권한, 중앙 IT의 거버넌스를 최소화합니다.

    가 설치되면 SRM 여러 플러그인과 애플리케이션도 활성화됩니다. 자세한 내용은 ITOM AIOps와 함께 설치되는 플러그인 또는 애플리케이션 문서를 참조하십시오.

    SRM 사용자

    표 1. 사용자
    사용자 설명 역할 포함
    관리자
    ServiceNow관리자는 플랫폼을 관리, 구성, 유지보수합니다.ServiceNow SRM에서 관리자 센터에 액세스하고 작업할 수 있습니다.서비스 운영 작업 공간 관리자만 다음을 수행할 수 있습니다.
    • SRM을 설치합니다.
    • 관리자를 추가하고 관리 SRM 합니다.
    • 통합 사용자를 생성하고 관리합니다.
    모두
    SRM 관리자 [srm_admin]
    주:
    이 역할은 관리자 역할과 ServiceNow 다릅니다.

    SRM 관리자는 계정 설정, 구성 및 사용자를 관리할 수 있습니다.

    관리자는 다음 작업을 수행할 수 있습니다.
    • 모든 SRM 구성에 액세스, 생성, 편집 또는 삭제합니다.
    • 통합을 추가하거나 관리합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합을 생성합니다.
    • 신뢰성 메트릭을 설정하고 유지합니다.
    • 오류 예산 정책을 설정하고 유지합니다.
    • 관리자
    • 응답기
    SRM 관리자 [srm_manager] 관리자는 SR 팀을 감독합니다. 관리자는 팀 당직 일정에 SRE를 할당하고, 성과를 모니터링하고, 인시던트를 처리하고 솔루션을 개발하기 위한 절차를 만듭니다. 관리자는 모든 시스템과 DevOps 워크플로우에서 복원성을 향상시킵니다.
    관리자는 팀 컨텍스트 내에서 다음 작업을 수행할 수 있습니다.
    • 팀, 당직 일정 및 서비스를 정의하고 설정합니다.
    • 소속된 팀의 응답자 및 관리자와 같은 사용자를 추가하고 삭제합니다.
    • 통합을 추가하거나 관리합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합을 생성합니다.
    • 신뢰성 메트릭을 설정하고 유지합니다.
    • 오류 예산 정책을 설정하고 유지합니다.
    응답기
    SRM 응답자 [srm_responder]

    SRM을 사용하여 일상적인 작업을 수행하는 SRE(서비스 신뢰성 엔지니어)입니다. 응답자는 당직을 서서 인시던트를 진단하고 정정하는 사람입니다.

    응답자는 자신이 속한 구성에만 액세스할 수 있습니다. 권한 있는 경보 또는 인시던트에만 접근할 수 있습니다.

    SRE는 팀 컨텍스트 내에서 다음 작업을 수행할 수 있습니다.
    • 서비스, 팀 및 통합을 설정합니다.
    • 자신의 당직 일정을 확인합니다.
    • 인시던트 및 경보 기록을 관리합니다.
    • 자신이 만든 팀을 업데이트합니다.
    • 다른 응답자를 추가합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합을 생성합니다.
    • 신뢰성 메트릭을 설정하고 유지합니다.
    • 오류 예산 작업을 설정하고 유지합니다.
    다음을 포함하여 17가지 역할을 상속합니다.
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • slo_operator

    자세한 내용은 SRM 역할 및 책임 문서를 참조하십시오.

    SRM 워크플로우

    응답자, 관리자 및 관리자가 팀을 관리하고, 서비스를 등록하고, SLO를 정의하고, 통합을 모니터링하고, 알림에 응답하고, 인시던트를 정정하는 방법을 보여주는 인포그래픽입니다. 자세한 내용은 다음 설명을 참조하십시오.
    1. IT 또는 LOB(Line of Business)의 제품 팀은 새로운 서비스 인스턴스와 기술 관리 서비스, 지속적으로 제공합니다. 예: 새 고객 청구 포털.
    2. SLO 관리함께 팀은 서비스를 등록하고 SLO(서비스 수준 목표)를 정의하여 비즈니스 성과를 달성하는 데 도움을 줄 수 있습니다. 예: 청구 포털의 월별 가용성 95%
    3. 모니터링 통합은 이러한 서비스의 실시간 상태를 수집하기 위해 팀에서 설정합니다. 예: 클라우드 옵저버빌리티
    4. 모니터링은 서비스가 수행되지 않을 때 경보에 영향을 주는 SLI(서비스 수준 표시기)를 생성합니다. 자동화는 그룹화하고 보강합니다. 예: 청구 포털 대기 시간이 7초를 초과합니다.
    5. 경보에서 중단 또는 고객에게 영향을 주는 저하를 나타내면 인시던트가 생성되고 당직 알림으로 해당 팀 자원에 알립니다. 예: 청구 SRE 팀이 청구 포털에서 대기 시간 문제에 대한 전화를 통해 알림을 받습니다.
    6. 팀이 인시던트를 공동으로 진단하고 정정한 후 시스템의 복원성을 개선하기 위한 작업 항목을 식별합니다. 예: 청구 팀에서 웹 서버 용량을 추가하기로 결정합니다.
    7. 경영진은 SLO 성능을 지속적으로 검토하고, 오류 예산이 소진되었을 때 변경을 방지하고, 성과가 저조한 서비스에 대한 개선 이니셔티브의 우선 순위를 지정합니다.

    SRM 이점

    혜택 기능 사용자
    팀 기반 경험 팀 작업 SRM SRM 관리자, 매니저 및 응답자
    서비스 등록 서비스 작업 SRM SRM 관리자, 매니저 및 응답자
    사전 구축된 통합 SRM에서 통합 작업 SRM 관리자, 매니저 및 응답자
    서비스 상태 측정 신뢰성 메트릭 작업 SRM 관리자, 매니저 및 응답자
    당직 범위 SRM 당직 일정 생성 SRM 관리자, 매니저 및 응답자
    높은 심각도 경보 및 인시던트 정정 신뢰성 작업 작업 SRM SRM 관리자, 매니저 및 응답자