Site Reliability Metrics
Site Reliability Metrics(SRM)는 사이트 신뢰성 운영(SRO)를 확장하는 애플리케이션입니다. APM(애플리케이션 성능 관리) 경보의 신호 집계 지점 역할을 합니다.
Washington DC 릴리스부터 Site Reliability Metrics는 향후 사용 중단을 준비 중입니다. 이 항목은 숨겨지고 더 이상 새 인스턴스에 설치되지 않지만 지원은 계속됩니다. 자세한 내용은 Now Support 지식베이스에서 사용 중단 프로세스 [KB0867184] 문서를 참조하십시오.
SRM을 사용하면 SRE(사이트 신뢰성 엔지니어)가 여러 소스에서 신호를 캡처하고, SLO(서비스 수준 목표) 대상을 설정하고, 오류 예산(EB)을 보고, 인시던트를 생성하거나 오류 예산 임계치에 기반한 알림을 보내는 등 정책 기반 작업을 호출할 수 있습니다. SRE는 하나 이상의 성능 관리 도구에서 제공하는 주요 SLI(서비스 수준 표시기)를 평가하여 서비스 경험을 측정하고 릴리스 속도를 관리할 수 있습니다. 이러한 신호에 대한 평가와 집계를 통해 SRE는 정책 기반 작업을 트리거하고, 변화하는 조건에 신속하게 대응할 수 있습니다.
사이트 신뢰성 엔지니어와 서비스 소유자는 SRM을 사용하여 제공하는 서비스가 소비자의 기대에 부응하도록 보장할 수 있습니다. SLI 유형(예: 대기 시간, 처리량, 가용성)을 기준으로 서비스 수준 목표를 설정한 다음, 오류 예산 정책을 사용하여 하나 이상의 정책 기반 작업을 트리거하여 품질을 측정할 수 있습니다.
- SLI 신호 집계
- 기간 및 개수 기반 서비스 수준 목표 생성
- 오류 예산(EB) 계산
- 오류 예산 정책
- 오류 예산 시각화
상위 수준 워크플로우
- SRM은 신호 집계를 위해 SRO 통합을 활용합니다.
- SLI와 SLO를 포함하는 신뢰성 표시기는 SRM의 서비스에 대해 생성됩니다.
- APM 도구의 서비스에 대해 자격 있는 경보가 생성되면 SRM의 신뢰성 표시기에 누적 위반 및 오류 예산 값이 업데이트됩니다.
- 서비스에서 인시던트 만들기, 알림 보내기 등의 작업을 트리거하여 서비스 문제를 정정하기 위한 오류 예산 정책이 생성됩니다.
Site Reliability Metrics에 대한 전반적인 이해와 사용 방법 파악을 위해 이 비디오를 시청하십시오.