Agrupamento de alertas automatizado

Versão de lançamento: Yokohama

Atualizado 30 de jan. de 2025

3 min. de leitura

O agrupamento automatizado de alertas é um processo que usa dados históricos para organizar automaticamente alertas semelhantes em grupos. Esses alertas podem ser problemas do sistema, como erros de servidor ou indisponibilidades de rede. Ao agrupar alertas relacionados, ele ajuda as equipes a identificar rapidamente padrões, gerenciar problemas recorrentes e reduzir o ruído de muitos alertas individuais.

Imagine que você está monitorando o sistema de tráfego de uma cidade. Você recebe muitos alertas, como relatórios de acidentes, en trânsito e fechamentos de via. O agrupamento automatizado de alertas funciona como um assistente inteligente que organiza esses alertas com base em padrões, para que você possa ver os problemas relacionados juntos e responder com mais eficiência. Esses grupos de alertas automatizados são exibidos em Lista expressa dentro de Espaço de operações de serviços.

Como você habilita este agrupamento

Para habilitar a automação baseada em aprendizado de máquina para correlação de alertas, defina a propriedade Habilitar correlação de automação baseada em ML (sa_analytics.specific_patterns_enabled) como verdadeira.

Se o Suporte de domínio - Instalador de extensões de domínio estiver ativado, os padrões de agregação de alertas serão criados com base no nível de domínio definido na propriedade sa_analytics.agg.learner_domain_level. Por padrão, este nível de domínio é definido como dois, o que corresponde ao segundo nível na hierarquia de domínio. Por exemplo, em uma empresa, o Nível 1 pode representar a própria empresa, enquanto o Nível 2 pode representar departamentos ou equipes dentro da empresa. Os alertas são agrupados com base neste segundo nível, como classificá-los por departamento ou equipe. Para obter mais detalhes, Separação de domínios e Gestão de eventos.

Como isso funciona

O agrupamento automatizado de alertas usa aprendizado de máquina (ML) e dados históricos para identificar padrões entre alertas. Ele analisa características específicas, chamadas de identificadores de padrão, como o tipo de problema, o sistema afetado, IC ou métrica que aconteceu várias vezes em um período semelhante, para determinar se os alertas estão relacionados. O aprendiz de agregação de alertas usa algoritmos para agrupar alertas com base em padrões. Especificamente, ele usa algoritmos baseados em padrões e métodos probabilísticos para analisar os alertas de entrada e identificar os relacionados.

Pense nisso como perceber que os acidentes geralmente acontecem em um cruzamento específico na hora do rush. O sistema agrupa alertas semelhantes (como encravamentos de tráfego recorrentes no mesmo local) com base em determinados identificadores (como local ou tipo de problema). O sistema segue estas etapas principais para agrupar alertas de forma eficaz:

Analisar dados históricos: o sistema analisa alertas anteriores para aprender padrões e relacionamentos.
Aplicar aprendizado de máquina: os algoritmos de ML analisam os dados históricos de alertas para identificar padrões e relacionamentos entre alertas. Ele permite que o sistema aprenda com incidentes anteriores e melhore sua capacidade de agrupar alertas semelhantes ao longo do tempo.
Agrupar alertas semelhantes: alertas com padrões correspondentes são agrupados automaticamente.

Imagine que você está gerenciando o sistema de tráfego de uma cidade e recebe vários alertas:

8h: Acidente na rua principal
8h05: en trânsito próximo à rua principal
8h10: fechamento de via na Main Street

O agrupamento automatizado de alertas funciona como um assistente inteligente, analisando esses alertas e reconhecendo um padrão. Isso os agrupa porque todos estão relacionados à rua principal, provavelmente decorrentes do mesmo acidente. Isso ajuda você a ter uma visão geral rapidamente e a se concentrar na resolução da causa raiz (o acidente), em vez de abordar cada alerta separadamente.

Benefícios

Localizar problemas recorrentes: detecta padrões rapidamente (como um servidor superaquecido de forma consistente).
Economize tempo: lide com grupos de alertas relacionados em vez de individuais.
Melhorar a resposta: concentre-se na correção da causa raiz em vez de lidar com problemas distribuídos.