Site Reliability Metrics

  • Versão de lançamento: Washingtondc
  • Atualizado 1 de fev. de 2024
  • 2 min. de leitura
  • Site Reliability Metrics (SRM) é um aplicativo que estende Site Reliability Operations (SRO). Ele serve como um ponto de agregação de sinal para alertas do Gerenciamento de desempenho de aplicativo (APM).

    A partir da versão Washington DC, o Site Reliability Metrics está sendo preparado para descontinuação futura. Ele ficará oculto e não será mais instalado em novas instâncias, mas continuará a ser compatível. Por obter detalhes, consulte o artigo Processo de descontinuação [KB0867184] na Base de conhecimento do Now Support.

    O SRM permite que os Engenheiros de Confiabilidade do Site (SREs) capturem sinais de várias fontes, definam metas de Objetivo de nível de serviço (SLO), exibam Orçamentos de erro (EB) e invoquem ações baseadas em política, como criar um incidente ou enviar uma notificação com base nos limites do Orçamento de erro. Os SREs podem medir a experiência de serviço e gerenciar a velocidade de versão avaliando os principais indicadores de nível de serviço (SLI) obtidos de uma ou mais ferramentas de gerenciamento de desempenho. A avaliação e a agregação desses sinais permitem que os SREs ativem o gatilho de ações com base em políticas e respondam rapidamente às mudanças nas condições.

    Os engenheiros de confiabilidade do site e os proprietários de serviço podem usar o SRM para garantir que o serviço fornecido atenda às expectativas do consumidor. Eles podem medir a qualidade definindo objetivos de nível de serviço com base nos tipos de SLI (por exemplo, latência, rendimento, disponibilidade) e, em seguida, usar Políticas de orçamento de erro para ativar o gatilho de uma ou mais ações baseadas em política.

    Os principais recursos do aplicativo SRM são:
    • Agregação de sinal SLI
    • Criar duração e contagem de objetivos de nível de serviço
    • Calcular orçamentos de erro (EB)
    • Políticas de orçamento de erro
    • Visualização de orçamento de erro

    Fluxo de trabalho de alto nível

    1. O SRM aproveita as integrações de SRO para agregação de sinal.
    2. Os indicadores de confiabilidade que contêm SLIs e SLOs são criados para o serviço no SRM.
    3. Quando um alerta qualificado é gerado para um serviço na ferramenta APM, a violação cumulativa e os valores de orçamento de erro são atualizados para os indicadores de confiabilidade no SRM.
    4. Uma política de orçamento de erro é criada para o serviço para ativar o gatilho de ações como criar um incidente, enviar notificações e assim por diante, para corrigir problemas de serviço.

    Assista ao vídeo a seguir para uma compreensão geral de Site Reliability Metrics e como você pode usá-lo.