Datadog과 SR Ops 통합

  • 릴리스 버전: Xanadu
  • 업데이트 날짜 2024년 08월 01일
  • 소요 시간: 2분
  • Datadog은 인기 있는 클라우드 및 애플리케이션 모니터링 서비스입니다. Datadog을 사용하면 애플리케이션 수준에서 실제 호스트 및 VM까지, 전체 스택의 메트릭을 세분화하여 파악할 수 있습니다. Datadog은 서비스의 모니터링 메트릭 또는 이벤트를 기반으로 경보를 제공합니다. Datadog은 탐지된 문제에 대한 경보를 생성하고 SR Ops는 적절한 사용자가 작업하도록 보장합니다.

    메트릭 값에 대한 경보 규칙의 경우, 지정된 메트릭 값이 할당된 임계치를 초과하면 경보 규칙이 활성화되어 알림을 전송합니다. 이벤트에 대한 경보 규칙의 경우, 규칙은 모든 이벤트에 대해 또는 일정 수의 이벤트가 발생할 때 알림을 보낼 수 있습니다.

    SR Ops는 Datadog 사용자에게 어떤 서비스를 제공합니까?

    SR Ops에서는 Datadog과의 강력한 네이티브 양방향 통합이 가능합니다. 통합을 사용하여 Datadog 경보를 SR Ops 경보와 자동으로 동기화하고 SR Ops의 풍부한 경보 알림 시스템, 에스컬레이션 및 당직 순환을 활용합니다. Datadog은 메트릭 및 이벤트를 기반으로 경보를 생성합니다. SR Ops는 Datadog에서 생성된 경보에 대한 디스패처 역할을 합니다. SR Ops는 당직 일정 및 에스컬레이션을 기반으로 알림을 받을 사람들을 결정하고 이메일, SMS(문자 메시지), 전화, Android & iOS 푸시 알림을 통해 알림을 전달합니다.
    • Datadog은 정의된 조건이 일치하면 경보를 트리거합니다. Datadog에서 경보가 생성되면 SR Ops에서도 통합을 통해 경보가 자동으로 생성됩니다.
    • SR Ops에서 경보가 확인되면 Datadog에서도 경보가 자동으로 확인됩니다.
    • SR Ops에서 경보가 종결되면 Datadog에서도 경보가 자동으로 종결됩니다.
    • SR Ops에서 Datadog 이외 소스의 경보가 생성되면 SR Ops는 Datadog에 경보를 게시할 수 있습니다(선택 사항).
    • Datadog의 경보를 확인하거나 종결합니다.
    • Datadog에서 보낸 경보를 기반으로 당직 응답자에게 알립니다.
    • 이벤트를 트리거한 메트릭/서비스 수준 표시기(SLI)의 시각화를 포함하여 Datadog에서 풍부한 이벤트 데이터를 전송합니다.
    • Datadog 이벤트 페이로드에서 이벤트의 심각도에 따라 긴급도가 높거나 낮은 인시던트를 생성합니다.
    • 인시던트와 에스컬레이션을 업데이트하면 SR Ops 및 Datadog에 모두 동기화됩니다.
    • Datadog의 메트릭이 양방향 동기화를 통해 정상화되면 SR Ops에서 인시던트가 자동으로 해결됩니다.

    통합의 기능

    Datadog에서 경보가 생성되면 SR Ops에서 통합을 통해 경보가 자동으로 생성됩니다.

    지정된 범위에서 벗어난 Datadog 메트릭은 이벤트를 SR Ops의 서비스로 전송합니다. Datadog의 이벤트는 해당 SR Ops 서비스에서 새 인시던트를 트리거하거나 기존 인시던트에 경보로 그룹화합니다.

    메트릭이 지정된 범위로 돌아가면 해결 이벤트가 SR Ops서비스로 전송되어 경보와 해당 서비스에 대한 관련 인시던트가 해결됩니다.