신뢰성 메트릭 작업

  • 릴리스 버전: Xanadu
  • 업데이트 날짜 2024년 08월 01일
  • 소요 시간: 3분
  • SRM 신뢰성 메트릭을 사용하여 SLI(서비스 수준 표시기), SLO(서비스 수준 목표) 및 오류 예산 정책을 정의하면 서비스 상태를 추적하고 필요할 때 필요한 조치를 취할 수 있습니다.

    상위 수준 워크플로우

    1. SRM은 신호 집계를 위해 통합을 활용합니다.
    2. SLI와 SLO를 포함하는 신뢰성 표시기는 SRM의 서비스에 대해 생성됩니다.
    3. 서비스에 대해 자격 있는 경보가 생성되면 SRM의 신뢰성 표시기에 누적 위반 및 오류 예산 값이 업데이트됩니다.
    4. 서비스에서 인시던트 만들기 또는 이메일 보내기 등의 작업을 트리거하여 서비스 문제를 정정하기 위한 오류 예산 정책이 생성됩니다. 오류 예산은 범주별로 제한됩니다.
    SRM 메트릭의 주요 기능은 다음과 같습니다.
    • SLI 신호 집계
    • 기간 및 개수 기반 서비스 수준 목표 생성
    • 오류 예산(EB) 계산
    • 오류 예산 정책
    • 오류 예산 시각화
    다음으로 이동합니다. 서비스 > 개요 을 탭하여 안정성 및 오류 예산 메트릭에 대한 모든 관련 중요 데이터를 봅니다. 자세한 내용은 SRM 서비스 작업 문서를 참조하십시오.
    주:
    점수는 SLI와 SLO 및 오류 예산이 생성되고 영향을 받는 경우에만 표시됩니다. 자세한 내용은 SLO, SLI 및 오류 예산 정책 생성 문서를 참조하십시오.

    신뢰성 메트릭 탭

    다음으로 이동합니다. 서비스 > 신뢰성 메트릭 탭하여 서비스에 대한 SLO(서비스 수준 목표)를 봅니다.

    그림 1. SRM 신뢰성 메트릭 목록 뷰
    주:
    SLO를 업데이트하면 상태가 변경되어 이 SLO 기록이 폐기되고 정확한 모니터링을 위해 새 사본이 생성됩니다.
    신뢰성 메트릭 탭에는 선택한 서비스에 대한 서비스 수준 목표 목록이 표시됩니다.

    신뢰성 메트릭

    서비스 수준 목표에는 다음 상세 정보가 표시됩니다.

    • 서비스 수준 목표: SLO의 이름입니다. SLO는 SLA(서비스 수준 계약)를 충족하기 위해 팀이 달성해야 하는 대상 값 또는 목표입니다.
    • SLI 유형: 서비스 성과에 대한 실제 수치입니다.
      SLI 유형은 다음과 같습니다.
      • 가용성: 서비스를 사용할 수 있는 시간의 백분율입니다. 가동 시간이라고도 합니다. 가용성은 신뢰성의 기본 메트릭입니다. (기본값).
      • 오류: 서비스 오류의 빈도를 측정합니다.
      • 대기 시간: 요청을 처리하는 데 걸리는 시간입니다. 실제 경과 시간입니다.
      • 포화도: 시스템의 "충만도"를 측정하여, 가장 제약이 있는 자원을 강조합니다.
    • 준수 기간:
      SLO가 지속되도록 설정된 기간입니다.
      • : 이 기간은 현재 월로 간주됩니다. 예를 들어, 현재 날짜가 1월 26일이면 기간은 1월 1일~1월 31일로 간주됩니다.
      • 롤링 7일: 이 기간은 현재 날짜로부터 7일로 간주됩니다.
      • 롤링 30일: 이 기간은 현재 날짜로부터 30일로 간주됩니다. 예를 들어, 현재 날짜가 1월 26일이면 기간은 12월 25일부터 시작되는 것으로 간주됩니다.
      • 롤링 90일: 이 기간은 현재 날짜로부터 90일로 간주됩니다. 예를 들어, 현재 날짜가 1월 26일이면 기간은 10월 25일부터 시작되는 것으로 간주됩니다.
    • 상태:
      SLO의 상태입니다. 선택 항목은 다음과 같습니다.
      • 초안: SLO가 인스턴스에서 아직 실행되고 있지 않습니다. 새 SLI를 추가하거나 기존 SLI를 업데이트할 수 있으며 SLO를 삭제할 수 있습니다.
      • 실행 중: SLO가 인스턴스에서 활성 상태입니다. SLO를 편집, 폐기 또는 삭제할 수 있습니다.
        주:
        실행 중 상태의 SLO를 편집하면 해당 SLO가 폐기되고 새 복사본이 생성됩니다.
      • 폐기됨: SLO가 인스턴스에서 더 이상 실행되지 않습니다. 이를 다시 활성화할 수 있습니다.
    • 목표(%): 원하는 SLI 성과의 백분율입니다.
    • 발생 제한: 발생한 제한 위반 횟수입니다. (SLO 카운트 유형에 사용됩니다.)
    • 서비스 수준 표시기: 서비스 성과에 대한 실제 숫자입니다. 고객의 기대에 부응하고 있는지 여부를 나타내는 측정 가능한 사실입니다.
    • 오류 예산: 지출할 수 있는 오류 예산의 양입니다. SLO를 만들 때 오류 예산은 제공된 준수 기간 및 목표(%)를 기준으로 계산됩니다.
    • 남은 오류 예산: 남은 오류 예산입니다.
    • 남은 위반 발생: 한도에 도달하기 전에 남은 위반 수입니다.
    주:
    서비스 수준 목표 이력 [sn_sow_srm_slo_history] 및 서비스 수준 표시기 메트릭 [sn_sow_srm_sli_metric] 기록은 1년 후에 보관되고 그 후 5년이 지나면 파기됩니다. 이렇게 하면 동일한 수명의 데이터 보존과 함께 성능이 향상될 수 있습니다. 보관된 테이블에 대해서는 쿼리가 실행되지 않습니다.