integração do Datadog com SR Ops
Datadog é um serviço popular de monitoramento de aplicativos e nuvem. Com o Datadog, obtenha informações sobre métricas granulares de pilhas inteiras, desde o nível do aplicativo até os hosts e VMs reais. O Datadog fornece alertas com base em métricas de monitoramento ou eventos em serviços. O Datadog gera alertas para problemas detectados e garante SR Ops que as pessoas certas estejam trabalhando neles.
Para uma regra de alerta em um valor de métrica, quando o valor de uma métrica especificada cruza um limite atribuído, a regra de alerta se torna ativa e envia uma notificação. Para uma regra de alerta em eventos, uma regra pode enviar uma notificação em cada evento ou somente quando um determinado número de eventos acontecer.
O que o SR Ops oferece aos usuários do Datadog
- O Datadog ativa o gatilho de um alerta quando uma condição definida é correspondida. Quando um alerta é criado no Datadog, ele também é criado automaticamente em SR Ops pela integração.
- Quando o alerta é confirmado em SR Ops, ele é confirmado automaticamente no Datadog.
- Quando o alerta é encerrado em SR Ops, ele é encerrado automaticamente no Datadog.
- Quando um alerta é criado em SR Ops de qualquer origem (diferente de Datadog), SR Ops é capaz de publicar o alerta no Datadog (opcional).
- Confirmar (ou fechar) os alertas do Datadog.
- Notifique os respondentes de plantão com base nos alertas enviados do Datadog.
- Envie dados de evento aprimorados do Datadog, incluindo visualizações do indicador de nível de serviço/métrica (SLI) que acionou o evento.
- Crie incidentes de urgência alta e baixa com base na severidade do evento da carga do evento Datadog.
- Os incidentes e escalações são sincronizados em SR Ops e no Datadog conforme eles são atualizados.
- Os incidentes serão resolvidos automaticamente em SR Ops quando a métrica no Datadog retornar ao normal com a sincronização bidirecional.
Funcionalidade da integração
Quando um alerta é criado no Datadog, ele é criado automaticamente em SR Ops pela integração.
As métricas do Datadog que estão fora de um intervalo designado enviarão um evento para um serviço em SR Ops. Os eventos do Datadog ativarão o gatilho de um novo incidente no serviço SR Ops correspondente, ou grupo como alertas em um incidente existente.
Depois que a métrica retornar ao intervalo designado, um evento de resolução será enviado para o serviço SR Ops para resolver o alerta e o incidente associado nesse serviço.