Trabalhando com o Métricas de confiabilidade

  • Versão de lançamento: Yokohama
  • Atualizado 30 de jan. de 2025
  • 3 min. de leitura
  • Use as métricas de confiabilidade SRM para definir indicadores de nível de serviço (SLI), objetivos de nível de serviço (SLO) e políticas de orçamento de erro para rastrear a integridade do serviço e tomar as medidas necessárias.

    Fluxo de trabalho de alto nível

    1. O SRM aproveita as integrações para agregação de sinal.
    2. Os indicadores de confiabilidade que contêm SLIs e SLOs são criados para o serviço no SRM.
    3. Quando um alerta qualificado é gerado para um serviço, a violação cumulativa e os valores de orçamento de erros são atualizados para os indicadores de confiabilidade no SRM.
    4. Uma política de orçamento de erros é criada para o serviço a fim de disparar ações como a criação de incidentes ou o envio de e-mails para corrigir problemas de serviço. Os limites de erros são restritos pela Categoria.
    Os principais recursos das métricas da SRM são:
    • Agregação de sinal SLI
    • Criar duração e contagem de objetivos de nível de serviço
    • Calcular orçamentos de erro (EB)
    • Políticas de orçamento de erro
    • Visualização de orçamento de erro
    Navegue até o Serviços > Visão geral guia para exibir todos os dados críticos associados às métricas de Confiabilidade e Limite de erros. Para obter mais informações, consulte Como trabalhar com serviços da SRM.
    Nota:
    As pontuações só ficam visíveis quando SLIs e SLOs e limites de erro foram criados e são afetados. Confira Criar SLO, SLI e políticas de limite de erros para obter informações mais detalhadas.

    Guia de métricas de confiabilidade

    Navegue até o Serviços > Métricas de confiabilidade para exibir os objetivos de nível de serviço (SLO) de um serviço.

    Figura 1. Exibição de lista das métricas de confiabilidade da SRM
    A guia de métricas de confiabilidade mostra uma lista dos objetivos de nível de serviço para um serviço selecionado.
    Nota:
    A atualização do SLO muda o estado e resulta na descontinuação deste registro de SLO e na criação de uma cópia para fins de monitoramento precisos.

    Métricas de confiabilidade

    Os Objetivos de nível de serviço mostram os seguintes detalhes:

    • Objetivo de nível de serviço: nome do SLO. O SLO é um valor de meta ou o objetivo que sua equipe deve atingir para atender ao acordo de nível de serviço (ANS).
    • Tipo de SLI: os números reais no desempenho do seu serviço.
      Os tipos de SLI são:
      • Disponibilidade: porcentagem de tempo em que o serviço está disponível. Também conhecido como tempo de atividade. Disponibilidade é uma métrica básica de confiabilidade. (Padrão).
      • Erros: mede a frequência dos seus erros de serviço.
      • Latência: tempo necessário para atender a uma solicitação. O tempo real decorrido.
      • Saturação: mede a “plenitude” do seu sistema, enfatizando os recursos mais restritos.
    • Período de conformidade:
      Quanto tempo o SLO está definido para durar.
      • Mês: a duração é considerada o mês atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada de 1º a 31 de janeiro.
      • 7 dias corridos: a duração é considerada 7 dias a partir da data atual.
      • 30 dias corridos: a duração é considerada 30 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de dezembro.
      • 90 dias corridos: a duração é considerada 90 dias a partir da data atual. Por exemplo, se a data atual for 26 de janeiro, a duração será considerada a partir de 25 de outubro.
    • Estado:
      Estado do SLO. As opções são:
      • Rascunho: o SLO ainda não está em execução na sua instância. Você pode adicionar novos SLIs ou atualizar SLIs existentes e excluir o SLO.
      • Em execução: o SLO está ativo na sua instância. Você pode editar, desativar ou excluir o SLO.
        Nota:
        Ao editar um SLO com estado em execução ele será descontinuado e uma nova cópia será criada.
      • Descontinuado: o SLO não está mais em execução na sua instância. Você pode reativá-lo.
    • Objetivo (%): percentual do desempenho de SLI desejado.
    • Ocorrências de limite: número de violações de limite que ocorreram. (Usado por SLOs do tipo Contagem.)
    • Indicador de nível de serviço: números reais no desempenho do seu serviço. Fatos mensuráveis que indicam se você está atendendo às expectativas dos clientes.
    • Orçamento de erros: quanto de orçamento de erros você pode gastar. Ao criar um SLO, o orçamento de erros é calculado com base no Período de Conformidade e no Objetivo (%) fornecidos.
    • Orçamento de erros restante: quanto de orçamento de erros ainda resta.
    • Ocorrências de violação restantes: número de violações restantes antes que o limite seja atingido.
    Nota:
    Os registros de histórico de objetivo de nível de serviço [sn_sow_srm_slo_history] e de métrica de indicador de nível de serviço [sn_sow_srm_sli_metric] são arquivados após um ano e destruídos após mais cinco anos. Espera-se que isso resulte em maior desempenho juntamente com a retenção de dados de igual duração. Nenhuma consulta é executada em tabelas arquivadas.