Trabalhando com o Métricas de confiabilidade

  • Versão de lançamento: Xanadu
  • Atualizado 1 de ago. de 2024
  • 3 min. de leitura
  • Use as métricas de confiabilidade SRM para definir indicadores de nível de serviço (SLI), objetivos de nível de serviço (SLO) e políticas de orçamento de erro para rastrear a integridade do serviço e tomar as medidas necessárias.

    Fluxo de trabalho de alto nível

    1. O SRM aproveita as integrações para agregação de sinal.
    2. Os indicadores de confiabilidade que contêm SLIs e SLOs são criados para o serviço no SRM.
    3. Quando um alerta qualificado é gerado para um serviço, a violação cumulativa e os valores de orçamento de erros são atualizados para os indicadores de confiabilidade no SRM.
    4. Uma política de orçamento de erros é criada para o serviço a fim de disparar ações como a criação de incidentes ou o envio de e-mails para corrigir problemas de serviço. Os limites de erros são restritos pela Categoria.
    Os principais recursos das métricas da SRM são:
    • Agregação de sinal SLI
    • Criar duração e contagem de objetivos de nível de serviço
    • Calcular orçamentos de erro (EB)
    • Políticas de orçamento de erro
    • Visualização de orçamento de erro
    Navegue até o Serviços > Visão geral guia para exibir todos os dados críticos associados às métricas de Confiabilidade e Limite de erros. Para obter mais informações, consulte Como trabalhar com serviços da SRM.
    Nota:
    As pontuações só ficam visíveis quando SLIs e SLOs e limites de erro foram criados e são afetados. Confira Criar SLO, SLI e políticas de limite de erros para obter informações mais detalhadas.

    Guia de métricas de confiabilidade

    Navegue até o Serviços > Métricas de confiabilidade para exibir os objetivos de nível de serviço (SLO) de um serviço.

    Figura 1. Exibição de lista das métricas de confiabilidade da SRM
    Nota:
    A atualização do SLO altera o estado e resulta na desativação do registro de SLO em questão e na criação de uma nova cópia para fins de monitoramento preciso.
    A guia de métricas de confiabilidade mostra uma lista dos objetivos de nível de serviço para um serviço selecionado.

    Métricas de confiabilidade

    Os Objetivos de nível de serviço mostram os seguintes detalhes:

    • Objetivo de nível de serviço: nome do SLO. O SLO é um valor de meta ou o objetivo que sua equipe deve atingir para atender ao acordo de nível de serviço (ANS).
    • Tipo de SLI: os números reais no desempenho do seu serviço.
      Os tipos de SLI são:
      • Disponibilidade: porcentagem de tempo em que o serviço está disponível. Também conhecido como tempo de atividade. Disponibilidade é uma métrica básica de confiabilidade. (Padrão).
      • Erros: mede a frequência dos seus erros de serviço.
      • Latência: tempo necessário para atender a uma solicitação. O tempo real decorrido.
      • Saturação: mede a “plenitude” do seu sistema, enfatizando os recursos mais restritos.
    • Período de conformidade:
      Quanto tempo o SLO está definido para durar.
      • Mês: a duração é considerada o mês atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada de 1º a 31 de janeiro.
      • 7 dias corridos: a duração é considerada 7 dias a partir da data atual.
      • 30 dias corridos: a duração é considerada 30 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de dezembro.
      • 90 dias corridos: a duração é considerada 90 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de outubro.
    • Estado:
      Estado do SLO. As opções são:
      • Rascunho: o SLO ainda não está em execução na sua instância. Você pode adicionar novos SLIs ou atualizar SLIs existentes e excluir o SLO.
      • Em execução: o SLO está ativo na sua instância. Você pode editar, desativar ou excluir o SLO.
        Nota:
        Ao editar um SLO com estado em execução ele será descontinuado e uma nova cópia será criada.
      • Descontinuado: o SLO não está mais em execução na sua instância. Você pode reativá-lo.
    • Objetivo (%): percentual do desempenho de SLI desejado.
    • Ocorrências de limite: número de violações de limite que ocorreram. (Usado por SLOs do tipo Contagem.)
    • Indicador de nível de serviço: números reais no desempenho do seu serviço. Fatos mensuráveis que indicam se você está atendendo às expectativas dos clientes.
    • Orçamento de erros: quanto de orçamento de erros você pode gastar. Ao criar um SLO, o orçamento de erros é calculado com base no Período de Conformidade e no Objetivo (%) fornecidos.
    • Orçamento de erros restante: quanto de orçamento de erros ainda resta.
    • Ocorrências de violação restantes: número de violações restantes antes que o limite seja atingido.
    Nota:
    Os registros de histórico de objetivo de nível de serviço [sn_sow_srm_slo_history] e de métrica de indicador de nível de serviço [sn_sow_srm_sli_metric] são arquivados após um ano e destruídos após mais cinco anos. Espera-se que isso resulte em maior desempenho juntamente com a retenção de dados de igual duração. Nenhuma consulta é executada em tabelas arquivadas.