Agrupamento de alertas e casos de uso

Yokohama IT Operations Management

Release

yokohama

ft:locale

pt-BR

ft:publication_title

Yokohama IT Operations Management

ft:clusterId

itom

bundleId

itom

workflow

Technology

Agrupamento de alertas e casos de uso

Versão de lançamento: Yokohama

Atualizado 30 de jan. de 2025

6 min. de leitura

Os métodos de agrupamento de alertas variam de abordagens definidas pelo usuário, como Manual, Baseado em regras e Cluster de marcadores, a algoritmos avançados e ajustáveis, incluindo Automático, CMDB, baseado em texto, Análise de logs e agrupamento baseado em tráfego de rede.

Tabela 1. Tipos de agrupamento de alertas e casos de uso
Tipo	Descrição	Caso de uso
Agrupamento de análise de log	Os alertas são agrupados com base na análise dos dados de log. Isso envolve a correlação de entradas de log para identificar incidentes e problemas relacionados. Ao aproveitar padrões e sequências de log, este método pode detectar problemas complexos de várias etapas em todo o ambiente de TI.	Uma empresa de jogos on-line aprimora a estabilidade do servidor implementando a análise de log proativa. Eles monitoram logs de servidores de jogos em tempo real e usam ferramentas de análise para detectar padrões de erros que ocorrem antes das falhas. Por exemplo, a análise revela que determinados padrões de erro aparecem cerca de 30 minutos antes das falhas do servidor. Ao configurar alertas automatizados para esses padrões, a empresa pode iniciar ações de correção, como reiniciar serviços ou realocar recursos, antes que ocorra uma falha. Essa abordagem proativa evita interrupções, minimiza o tempo de inatividade e melhora a experiência de jogo, resolvendo problemas antes que eles afetem os usuários.
Agrupamento baseado em regras	Os alertas são agrupados de acordo com regras e critérios predefinidos definidos pelos usuários. Essas regras podem incluir condições específicas, como limites ou tipos de evento. Este método é eficaz para padrões consistentes e repetíveis, mas requer manutenção das regras.	Em um datacenter que gerencia um site de comércio eletrônico, o agrupamento de alertas baseado em regras ajuda a lidar com alto tráfego durante eventos como vendas rápidas. Alertas sobre problemas do servidor, como alto uso de CPU, são designados como alertas primários. Esses alertas primários estão vinculados a alertas secundários que relatam problemas relacionados, como consultas lentas ao banco de dados. As regras garantem que os alertas relacionados ao servidor sejam agrupados com seus sintomas, permitindo que a equipe de TI identifique e resolva rapidamente problemas de sobrecarga do servidor. Essa abordagem melhora a eficiência da resolução de problemas e minimiza o tempo de inatividade.
Agrupamento automatizado	Algoritmos avançados identificam e agrupam automaticamente os alertas relacionados com base em padrões e semelhanças nos dados do alerta. Este método aproveita o aprendizado de máquina e a IA para se adaptar a problemas novos e desconhecidos, fornecendo gerenciamento proativo de alertas. Gestão de eventos agrupa alertas semelhantes, mas não necessariamente idênticos, com base na proximidade no tempo da última geração de eventos. Alertas com o mesmo IC e o mesmo identificador de padrão são agrupados. O agrupamento automático de alertas consiste nos seguintes componentes. Aprendiz de agregação de alertas (Aprendiz de agregação de alertas de Análise de serviços - Diariamente): este trabalho off-line é executado diariamente para processar alertas anteriores e executar análises estatísticas para criar padrões de alerta. Para obter detalhes, consulte Configurar agrupamento de alertas baseado em padrões. Trabalho de Agregação de alertas em tempo real (Análise de serviços agrupa alertas usando RCA/Agregação de alertas): este trabalho é executado a cada minuto para gerar grupos de agregação de alertas com base em padrões de alerta, relacionamentos de CMDB, semelhança de texto, marcadores de cluster de alerta definidos pelo usuário e conexão de tráfego de rede entre processos.	Uma grande instituição financeira usa aprendizado de máquina para gerenciar alertas de vários servidores e aplicações. O sistema analisa os dados históricos de alerta para reconhecer padrões, como falhas do servidor de banco de dados que são frequentemente acompanhadas por erros de conexão do cliente. Em seguida, ele agrupa automaticamente os alertas relacionados. Por exemplo, quando um novo alerta de falha do servidor de banco de dados é detectado, ele é agrupado com alertas de erro de conexão anteriores. Esse agrupamento automatizado ajuda as equipes de TI e de segurança a identificar e resolver problemas rapidamente, melhorando os tempos de resposta e reduzindo o tempo de inatividade.
Agrupamento baseado em CMDB	Os alertas são agrupados com base nos relacionamentos e nas dependências do item de configuração (IC) do Configuration Management Database (CMDB). Essa abordagem garante que os alertas relacionados a componentes ou serviços de infraestrutura específicos sejam agrupados, fornecendo gerenciamento de alertas baseado em contexto.	Uma empresa de telecomunicações usa dados do CMDB para gerenciar alertas relacionados à infraestrutura de rede. Os alertas relacionados a um roteador de rede específico e seus dispositivos conectados são agrupados com base em seus relacionamentos no CMDB, permitindo que a equipe de rede veja todos os problemas relacionados e resolva a causa raiz com eficiência.
Agrupamento baseado em texto	Os alertas são agrupados analisando o conteúdo de texto dos alertas para identificar semelhanças e problemas relacionados. As técnicas de processamento de linguagem natural (NLP) são usadas para encontrar semelhanças na descrição do alerta, no nome da métrica e na classe de IC, tornando este método eficaz para dados não estruturados.	Em uma organização que usa salas do Zoom para reuniões virtuais, a equipe de TI recebe vários alertas quando o servidor da sala do Zoom passa por uma indisponibilidade. Cada alerta pode indicar uma sala diferente do Zoom que está inativa, como a sala nº 10 do Zoom está inativa, a sala nº 11 do Zoom está inativa e assim por diante, com a única diferença sendo o número da sala. Para organizações com um CMDB, esses alertas podem ser agrupados usando relações de CMDB, pois o sistema pode correlacionar os alertas com base no impacto do servidor em todas as salas associadas do Zoom. No entanto, para organizações sem um CMDB, o agrupamento baseado em texto pode ser usado. O sistema aplica o processamento de linguagem natural a alertas de grupo com descrições semelhantes, ajudando a equipe de TI a identificar rapidamente que várias salas do Zoom são afetadas pelo mesmo problema de servidor subjacente. Essa abordagem permite que a equipe de TI resolva com eficiência a causa raiz do problema, reduzindo o tempo de inatividade e melhorando os tempos de resposta.
Agrupamento de clusters de marcador	Os alertas são categorizados e agrupados usando marcadores ou rótulos que representam atributos comuns, como aplicação, tipo de servidor ou localização geográfica. Este método permite o agrupamento flexível e dinâmico com base na evolução das estratégias de marcação.	Uma organização sem um CMDB gerencia um servidor Linux que executa vários serviços. A equipe de TI usa um campo Nó em cada alerta para identificar o servidor e agrupa todos os eventos relacionados a serviços no mesmo servidor com base nesse valor de nó. Por exemplo, eles agrupam alertas como o Serviço A inativo e o alto uso de CPU do Serviço B se compartilharem o mesmo valor de nó. Essa abordagem ajuda a equipe de TI a lidar com problemas relacionados ao servidor com mais eficiência. Ao agrupar alertas para o mesmo nó, aplicação ou endereço IP, a equipe simplifica seus esforços de resposta e resolve problemas com mais eficiência, mesmo sem um CMDB.
Agrupamento manual	Os usuários selecionam e agrupam manualmente os alertas relacionados com base em sua experiência e compreensão do sistema. Essa abordagem permite um controle preciso, mas pode ser demorada e pode perder correlações automatizadas.	Um administrador do sistema recebe vários alertas sobre diferentes serviços com falha em um único servidor. O administrador agrupa manualmente esses alertas, reconhecendo que todos estão relacionados a uma única falha de hardware nesse servidor e prioriza a correção do problema de hardware para restaurar todos os serviços.

O agrupamento de alertas manual e baseado em regras difere do agrupamento baseado em algoritmo principalmente na forma como o alerta primário é escolhido. No agrupamento de análise manual, baseado em regras ou em log, um dos alertas reais é designado como o alerta primário. Nos modos Automático, CMDB, Baseado em texto, Cluster de marcadores e Tráfego de rede, um alerta virtual, que representa o alerta mais antigo e grave do grupo, é criado como o alerta primário.

Nota:

Em ambientes separados por domínio, os grupos de alertas são criados somente para alertas dentro do mesmo domínio.

Para obter informações sobre trabalhos agendados e parâmetros, consulte Trabalhos agendados e parâmetros para agrupamento de alertas. Para obter informações detalhadas sobre diferentes tipos de agrupamento, consulte Tipos de agrupamento de alertas e métodos de criação.