서비스 신뢰성 관리 탐색

  • 릴리스 버전: Yokohama
  • 업데이트 날짜 2025년 01월 30일
  • 읽기4분
  • 서비스 신뢰성 관리 (SRM)는 팀이 서비스 상태를 관리할 수 있는 셀프 서비스 안내 환경을 제공합니다. 이 환경은 서비스 운영 작업 공간 애플리케이션을 사용하여 구축되며 ITOM 및 ITSM 기능을 단일 워크플로우에 결합합니다.

    SRM 개요

    SRE(사이트 신뢰성 엔지니어링) 사례를 통해 서비스 상태를 최적화합니다. SRM 는 팀이 SRE를 통해 디지털 서비스의 신뢰성을 개선할 수 있도록 지원하는 단일 운영 작업 공간입니다.
    • 당직 에스컬레이션을 사용하여 적시에 문제에 대응합니다.
    • 안내식 셀프 서비스를 통해 설정 마찰을 줄여 분산된 팀을 온보딩하여 분리된 데이터, 강력한 액세스 권한, 중앙 IT의 거버넌스를 최소화합니다.

    가 설치되면 SRM 여러 플러그인과 애플리케이션도 활성화됩니다. 자세한 내용은 ITOM 상태와 함께 설치되는 플러그인 또는 애플리케이션 문서를 참조하십시오.

    SRM 사용자

    표 1. 사용자
    사용자 설명 포함하는 역할
    admin

    ServiceNow 관리자는 ServiceNow 플랫폼의 관리, 개발, 운영, 교육 및 유지관리를 담당합니다.

    설치를 담당하며 SRM서비스 운영 작업 공간 관리자 센터 구성을 수행할 수 있습니다.

    모두
    관리자 [srm_admin]
    주:
    이 역할은 관리자 역할과 ServiceNow 다릅니다.

    SRM 관리자는 계정 설정, 구성 및 사용자를 관리할 수 있습니다.

    관리자는 다음 작업을 수행할 수 있습니다.
    • 모든 SRM 구성에 액세스, 생성, 편집 또는 삭제합니다.
    • 통합을 추가하거나 관리합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합을 생성합니다.
    • 신뢰성 메트릭을 설정하고 유지관리합니다.
    • 오류 예산 정책 설정 및 유지.
    • 매니저
    • 응답기
    관리자 [srm_manager] 관리자는 SR 팀을 감독합니다. 관리자는 팀 당직 일정에 SRE를 할당하고, 성과를 모니터링하고, 인시던트 처리 및 솔루션 개발을 위한 절차를 만듭니다. 관리자는 모든 시스템과 DevOps 워크플로우에 걸쳐 복원성을 촉진합니다.
    관리자는 팀 컨텍스트 내에서 다음 작업을 수행할 수 있습니다.
    • 팀, 당직 일정 및 서비스를 정의하고 설정합니다.
    • 소속된 팀의 응답자 및 관리자와 같은 사용자를 추가하고 삭제합니다.
    • 통합을 추가하거나 관리합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합을 생성합니다.
    • 신뢰성 메트릭을 설정하고 유지관리합니다.
    • 오류 예산 정책 설정 및 유지.
    응답기
    응답자 [srm_responder]

    SRM을 사용하여 일상적인 작업을 수행하는 SRE(Service Reliability Engineer)입니다. 응답자는 당직을 서서 인시던트를 진단하고 정정하는 사람입니다.

    응답자는 자신이 속한 구성에만 액세스할 수 있습니다. 권한 있는 경보 또는 인시던트에만 접근할 수 있습니다.

    SRE는 팀 컨텍스트 내에서 다음 작업을 수행할 수 있습니다.
    • 서비스, 팀 및 통합을 설정합니다.
    • 자신의 당직 일정을 확인합니다.
    • 인시던트 및 경보 기록을 관리합니다.
    • 자신이 만든 팀을 업데이트합니다.
    • 다른 응답자를 추가합니다.
    • APM(애플리케이션 성능 모니터링) 도구와의 통합을 생성합니다.
    • 신뢰성 메트릭을 설정하고 유지관리합니다.
    • 오류 예산 작업을 설정하고 유지합니다.
    다음을 포함하여 17가지 역할을 상속합니다.
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • slo_operator

    자세한 내용은 SRM 역할 및 책임 문서를 참조하십시오.

    SRM 워크플로우

    응답자, 관리자 및 관리자가 팀을 관리하고, 서비스를 등록하고, SLO를 정의하고, 통합을 모니터링하고, 알림에 응답하고, 인시던트를 정정하는 방법을 보여주는 인포그래픽입니다. 자세한 내용은 다음 설명을 참조하십시오.
    1. IT 또는 LOB(Line of Business)의 제품 팀은 새로운 기술 및 애플리케이션 서비스를 지속적으로 제공합니다. 예: 새 고객 청구 포털.
    2. SLO 관리와 함께 팀은 서비스를 등록하고 SLO(서비스 수준 목표)를 정의하여 비즈니스 결과에 도달하는 데 도움을 줄 수 있습니다. 예: 청구 포털의 월별 가용성 95%
    3. 모니터링 통합은 이러한 서비스의 실시간 상태를 수집하기 위해 팀에서 설정합니다. 예: 클라우드 옵저버빌리티
    4. 모니터링은 서비스가 수행되지 않을 때 경보에 영향을 주는 SLI(서비스 수준 표시기)를 만듭니다. 자동화는 그룹화하고 보강합니다. 예: 청구 포털 대기 시간이 7초를 초과합니다.
    5. 경보에서 중단 또는 고객 영향으로 인한 저하를 나타내면 인시던트가 생성되고 당직 알림으로 해당 팀 자원에 알립니다. 예: 청구 SRE 팀이 청구 포털에서 대기 시간 문제에 대한 전화를 통해 알림을 받습니다.
    6. 팀은 인시던트를 공동으로 진단하고 정정한 후 시스템의 복원성을 개선하기 위한 작업 항목을 식별합니다. 예: 결제 팀에서 웹 서버 용량을 추가하기로 결정합니다.
    7. 경영진은 SLO 성과를 지속적으로 검토하고, 오류 예산이 소진되었을 때 변경을 방지하고, 성과가 저조한 서비스에 대한 개선 이니셔티브의 우선 순위를 지정합니다.

    SRM 이점

    이점 기능 사용자
    팀 기반 경험 SRM 팀 작업 SRM 관리자, 매니저 및 응답자
    서비스 등록 SRM 서비스 작업 SRM 관리자, 매니저 및 응답자
    사전 구축된 통합 SRM 통합 작업 SRM 관리자, 매니저 및 응답자
    서비스 상태 측정 신뢰성 메트릭 작업 SRM 관리자, 매니저 및 응답자
    당직 범위 SRM 당직 일정 생성 SRM 관리자, 매니저 및 응답자
    높은 심각도 경보 및 인시던트 정정 SRM 신뢰성 작업 실행 SRM 관리자, 매니저 및 응답자