Site Reliability Metrics 기본 용어

  • 릴리스 버전: Washingtondc
  • 업데이트 날짜 2024년 02월 01일
  • 읽기1분
  • Site Reliability Metrics(SRM)의 기본 용어를 이해하고 해당 기능을 사용하기 위한 빠른 가이드입니다.

    표 1. SRM에서 사용하는 용어
    용어 설명
    애플리케이션 성능 관리(APM) 애플리케이션의 성능과 가용성 모니터링 및 관리. APM은 복잡한 애플리케이션 성능 문제를 탐지 및 진단하고 서비스 기대 수준을 유지할 수 있습니다.
    Service Level Management(SLM) 비즈니스 프로세스를 지원하기 위해 제공자와 소비자 간에 서비스 수준을 합의한 프레임워크입니다. Service Level Management에는 서비스 수준 계약(SLA), 운영 수준 계약(OLA) 및 외부공급계약(UC)이 포함됩니다.
    서비스 수준 계약(SLA) SLA는 제공자와 소비자 간에 합의된 서비스 수준을 정의합니다. 합의된 서비스 수준이 달성되지 않을 경우의 시정 조치 또는 벌금뿐만 아니라, 서비스가 측정되는 메트릭을 정의합니다.
    서비스 수준 목표(SLO) SLI로 측정되는 서비스 수준에 대한 대상 값 또는 값의 범위입니다.
    서비스 수준 표시기(SLI) 제공되는 서비스 수준의 몇 가지 양적 척도입니다. 메트릭은 SLO 대상을 정의하는 데 사용됩니다.
    측정된 신뢰성 약속된 서비스를 일관되고 정확한 방식으로 제공하는 능력입니다. 신뢰성은 100%에서 중단을 빼서 자동으로 계산됩니다.
    오류 예산

    오류 예산은 지정된 시간 동안 지출할 수 있는 SLO의 금액입니다. 릴리스 속도를 관리하는 데 사용할 수 있습니다. 일반적으로 가용성, 대기 시간 등에 따라 결정됩니다.

    오류 예산 정책 서비스에 대해 인시던트 만들기 또는 설정된 임계치 초과 시 알림 보내기 등의 작업을 트리거하기 위해 작성되는 정책 또는 규칙입니다.