Correlação de causa raiz

  • Versão de lançamento: Yokohama
  • Atualizado 30 de jan. de 2025
  • 2 min. de leitura
  • A correlação de causa raiz (RCC) simplifica a execução de uma análise de causa raiz, correlacionando automaticamente métricas, logs e informações de eventos para sintomas compatíveis em instâncias de produção nas últimas 24 horas.

    Categorias de sintomas do RCC

    O recurso RCC está disponível para alertas de autoatendimento e é compatível com as seguintes categorias de sintomas:
    • Memória
    • Sessões em execução mais longas
    • Transações lentas
    • Limpeza de cache
    • Bloqueios de banco de dados
    • Impactos do banco de dados
    A tabela descreve as categorias de sintomas e os alertas correspondentes que o mecanismo RCC detecta.
    Tabela 1. Categorias de sintomas direcionados e alertas correspondentes
    Categorias​ de sintomas Descrição Alerta correspondente
    Impacto do banco de dados​ Ajuda o usuário a identificar e abordar consultas SQL estendidas que afetam o desempenho do banco de dados, vinculadas a alto tempo de execução ou volumes maiores. Os padrões de consulta fornecem snapshots de durações de 30 minutos e 60 minutos a partir do momento em que o impacto é observado nos tempos de execução da consulta.​ Tempo de resposta do banco de dados​
    Limpeza de cache​ Limpezas de cache e reinicializações de nó são detectadas, bem como altos níveis de saturação de serviço que podem ter ocorrido na hora em que um alerta de desempenho foi acionado.​ Média do semáforo padrão​
    Sessão mais longa em execução​ Pesquisa as principais sessões de longa duração em logs de tempo médio de recuperação (MTTR) e identifica o hash de padrão de transação principal com os tempos de processamento mais altos e, em seguida, os IDs de transação.​ Média do semáforo padrão​
    Transações lentas​
    • Identifica as principais transações de longa duração usando a duração total, incluindo tempo de ACL, tempo de SQL, tempo de CPU, tempo de processamento, tempo de BR e tempo de script.
    • Retorna os IDs de transação, o hash de padrão e essas métricas para ajudar os usuários a identificar as causas específicas de transações de longa execução.
    Média do semáforo padrão​​​
    Memória​
    • Identifica os três nós mais afetados pelas pausas da coleta de lixo, determinados pela duração agregada das pausas.
    • Identifica todas as transações ou threads de trabalho nesses nós que excedem 200 segundos.
      Nota:
      Os usuários são aconselhados a revisar esses threads de longa execução ou recorrentes com frequência.​
    Tempo de coleta de lixo do nó​
    Bloqueios de banco de dados​ O mecanismo RCC monitora innodb_row_lock_waits e threads_running para detectar eventos anormais de bloqueio de banco de dados que ocorrem quando uma operação de banco de dados requer acesso exclusivo. Threads em execução​

    Status do relatório de RCC

    Quando um relatório RCC é gerado, vários status estão disponíveis:
    • RCC em andamento: a geração do relatório de RCC está sendo gerada
    • RCC gerado: o relatório foi gerado com sucesso
    • Nenhum RCC encontrado: quando não há informações suficientes para gerar o relatório
    • Falha de RCC: retornado quando há um problema técnico, geralmente corrigido para gerar novamente o relatório