Exploração do Gestão de confiabilidade de serviços

  • Versão de lançamento: Xanadu
  • Atualizado 1 de ago. de 2024
  • 4 min. de leitura
  • Gestão de confiabilidade de serviços (SRM) fornece uma experiência guiada de autoatendimento para que as equipes gerenciem de forma autônoma a integridade de seus serviços técnicos. A experiência é criada usando a aplicação Espaço de operações de serviços e combina recursos de ITOM e ITSM em um único fluxo de trabalho de operações de serviços.

    Visão geral SRM

    Otimize a integridade de serviço com Gestão de confiabilidade de serviços (SRM) para equipes de TI que adotam práticas de engenharia de confiabilidade do site (SRE). SRM é um espaço de operações único que capacita as equipes a melhorar a confiabilidade dos serviços digitais com SRE.
    • Use escalações de plantão para responder a problemas identificados pelo monitoramento e alertas de ITOM em tempo hábil.
    • Reduza o atrito de configuração com o autoatendimento guiado para integrar equipes distribuídas com dados separados, acesso capacitado e governança mínima da TI central.

    Quando SRM está ativado, vários plug-ins e aplicações também são instalados. Para obter mais informações, consulte Plug-ins ou aplicações instaladas com Integridade do ITOM.

    SRM usuários

    Tabela 1. Usuários
    Usuários Descrição Contém as funções
    administrador

    Um administrador de ServiceNow é responsável pela administração, o desenvolvimento, a operação, a formação e a manutenção da plataforma da ServiceNow.

    Responsável pela instalação e pode executar a configuração da Central de administração da Espaço de operações de serviços de SRM.

    Todos
    Administrador [srm_admin]
    Nota:
    Não a função de administrador da ServiceNow

    Os administradores de SRM podem gerenciar configurações e definições de conta e usuários.

    Os administradores podem executar as funções a seguir:
    • Acesse, crie, edite ou exclua todas as configurações de SRM.
    • Adicione ou gerencie integrações.
    • Criar integrações com ferramentas de Monitoramento de desempenho de aplicativos (APM)
    • Configurar e manter Indicadores de confiabilidade.
    • Configurar e manter políticas de orçamento de erro.
    • Gerente
    • Respondente
    Gerente [srm_manager] Os gerentes supervisionam uma equipe de SREs. Os gerentes atribuem SREs à programação da equipe de plantão, monitoram seu desempenho, criam procedimentos para lidar com incidentes e desenvolvem soluções. Os gerentes garantem a resiliência em todos os sistemas e fluxos de trabalho de DevOps.
    Os gerentes podem executar as seguintes ações dentro do contexto de suas respectivas equipes:
    • Defina e configure equipes e, cronogramas de plantão e serviços.
    • Adicione e exclua usuários, como respondentes e gerentes das equipes das quais fazem parte.
    • Adicione ou gerencie integrações.
    • Criar integrações com ferramentas de Monitoramento de desempenho de aplicativos (APM)
    • Configurar e manter Indicadores de confiabilidade.
    • Configurar e manter políticas de orçamento de erro.
    Respondente
    Respondente [srm_responder]

    Um Engenheiro de Confiabilidade de Serviço (SRE) que usa SRM para executar tarefas diárias. Os respondentes são os indivíduos que estão de plantão e diagnosticam e corrigem incidentes.

    Os respondentes só podem acessar as configurações das quais fazem parte. Eles só podem acessar os alertas ou incidentes para os quais têm permissão.

    Os SREs podem executar as seguintes ações no contexto de suas equipes:
    • Configurar serviços, equipes e integrações
    • Confirmar seus cronogramas de plantão
    • Gerenciar registros de incidentes e alertas
    • Atualizar as equipes que eles criaram
    • Adicionar outros respondentes
    • Criar integrações com ferramentas de Monitoramento de desempenho de aplicativos (APM)
    • Configurar e manter métricas de confiabilidade
    • Configurar e manter ações de limite de erros
    Herda 17 funções, incluindo as seguintes:
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • operador_slo

    Para obter mais informações, consulte SRM funções e responsabilidades.

    Fluxo de trabalho do SRM

    Infográfico que mostra como respondentes, gerentes e administradores gerenciam equipes, registram serviços, definem SLO, monitoram integrações, respondem a notificações e corrigem incidentes. Para mais detalhes, consulte a seguinte descrição.
    1. As equipes de produto em TI ou linhas de negócios fornecem continuamente novos serviços técnicos e de aplicações. Exemplo: novo portal de faturamento do cliente.
    2. Junto com Gestão de SLO, as equipes têm acesso para se implementarem no SRM para registrar esses serviços e definir objetivos de nível de serviço (SLO) para garantir resultados de negócios. Exemplo: disponibilidade mensal de 95% para o portal de faturamento.
    3. As integrações de monitoramento são configuradas pelas equipes para coletar a integridade em tempo real desses serviços. Exemplo: observabilidade de nuvem.
    4. O monitoramento cria alertas de impacto do indicador de nível de serviço (SLI) quando os serviços estão com desempenho insuficiente. A automação agrupa e aprimora. Exemplo: a latência do portal de faturamento excede 7 s.
    5. Quando os alertas indicam uma indisponibilidade ou uma degradação que afeta o cliente, os incidentes são criados e as notificações de plantão notificam os recursos da equipe apropriados. Exemplo: uma equipe de SRE de faturamento é notificada por telefone sobre um problema de latência no portal de faturamento.
    6. Depois que os incidentes são diagnosticados e corrigidos de forma colaborativa, os itens de ação para melhorar a resiliência são capturados. Exemplo: a equipe de faturamento decide adicionar mais capacidade ao servidor web.
    7. A gestão revisa continuamente o desempenho do SLO, ajuda a evitar mudanças quando o limite de erros está esgotado e prioriza iniciativas de melhoria para serviços com desempenho insuficiente.

    Benefícios das SRM

    Tabela 2. Benefícios da SRM
    Benefício Recurso Usuários
    Experiência baseada em equipe Trabalhando com equipes da SRM Respondente, gerente e administrador de confiabilidade de serviço
    Registro de serviço Como trabalhar com serviços da SRM Respondente, gerente e administrador de confiabilidade de serviço
    Integrações pré-criadas Trabalhando com integrações da SRM Respondente, gerente e administrador de confiabilidade de serviço
    Medir a integridade do serviço Trabalhando com o Métricas de confiabilidade Respondente, gerente e administrador de confiabilidade de serviço
    Cobertura de plantão Criar programação de plantão da SRM Respondente, gerente e administrador de confiabilidade de serviço
    Corrigir incidentes e alertas de gravidade alta Trabalhando com tarefas de confiabilidade SRM Respondente, gerente e administrador de confiabilidade de serviço