Explorando Gestão de confiabilidade de serviços

  • Versão de lançamento: Yokohama
  • Atualizado 30 de jan. de 2025
  • 4 min. de leitura
  • Gestão de confiabilidade de serviços (SRM) fornece uma experiência guiada de autoatendimento para que as equipes gerenciem a integridade do serviço. A experiência é criada usando a aplicação Espaço de operações de serviços e combina recursos de ITOM e ITSM em um único fluxo de trabalho.

    Visão geral SRM

    Otimize a integridade do serviço com práticas de engenharia de confiabilidade do site (SRE). SRM é um espaço de operações único que capacita as equipes a melhorar a confiabilidade dos serviços digitais com SRE.
    • Use escalações de plantão para responder a problemas em tempo hábil.
    • Reduza o atrito de configuração com o autoatendimento guiado para integrar equipes distribuídas com dados separados, acesso capacitado e governança mínima da TI central.

    Quando SRM está instalado, vários plug-ins e aplicações também são ativados. Para obter mais informações, consulte Plug-ins ou aplicações instaladas com Integridade do ITOM.

    SRM usuários

    Tabela 1. Usuários
    Usuários Descrição Contém as funções
    administrador

    Um administrador de ServiceNow é responsável pela administração, o desenvolvimento, a operação, a formação e a manutenção da plataforma da ServiceNow.

    Responsável pela instalação e pode executar a configuração da Central de administração da Espaço de operações de serviços de SRM.

    Tudo
    Administrador [srm_admin]
    Nota:
    Esta função é diferente da função de administrador ServiceNow.

    Os administradores de SRM podem gerenciar definições de conta, configurações e usuários.

    Os administradores podem executar as funções a seguir:
    • Acesse, crie, edite ou exclua todas as configurações de SRM.
    • Adicione ou gerencie integrações.
    • Crie integrações com as ferramentas de Monitoramento de desempenho de aplicações (APM).
    • Configure e mantenha métricas de confiabilidade.
    • Configurar e manter políticas de orçamento de erro.
    • Gerente
    • Respondente
    Gerente [srm_manager] Os gerentes supervisionam uma equipe de SREs. Os gerentes atribuem SREs à programação da equipe de plantão, monitoram seu desempenho e criam procedimentos para lidar com incidentes e desenvolver soluções. Os gerentes promovem a resiliência em todos os sistemas e fluxos de trabalho do DevOps.
    Os gerentes podem executar as seguintes ações dentro do contexto de suas respectivas equipes:
    • Defina e configure equipes, cronogramas de plantão e serviços.
    • Adicione e exclua usuários, como respondentes e gerentes das equipes das quais fazem parte.
    • Adicione ou gerencie integrações.
    • Crie integrações com ferramentas de Monitoramento de desempenho de aplicações (APM).
    • Configure e mantenha métricas de confiabilidade.
    • Configurar e manter políticas de orçamento de erro.
    Respondente
    Respondente [srm_responder]

    Um Engenheiro de Confiabilidade de Serviço (SRE) que usa SRM para executar tarefas diárias. Os respondentes são os indivíduos que estão de plantão e diagnosticam e corrigem incidentes.

    Os respondentes só podem acessar as configurações das quais fazem parte. Eles só podem acessar os alertas ou incidentes para os quais têm permissão.

    Os SREs podem executar as seguintes ações no contexto de suas equipes:
    • Configure serviços, equipes e integrações.
    • Confirme os cronogramas de plantão.
    • Gerenciar registros de incidentes e alertas.
    • Atualize as equipes que eles criaram.
    • Adicione outros respondentes.
    • Crie integrações com as ferramentas de Monitoramento de desempenho de aplicações (APM).
    • Configure e mantenha métricas de confiabilidade.
    • Configure e mantenha ações de limite de erros.
    Herda 17 funções, incluindo as seguintes:
    • cmdb_read
    • sn_sow.sow_user
    • sn_sow_srm.srm_responder
    • workspace_user
    • operador_slo

    Para obter mais informações, consulte SRM funções e responsabilidades.

    Fluxo de trabalho do SRM

    Infográfico que mostra como respondentes, gerentes e administradores gerenciam equipes, registram serviços, definem SLO, monitoram integrações, respondem a notificações e corrigem incidentes. Para mais detalhes, consulte a seguinte descrição.
    1. As equipes de produto em TI ou linhas de negócios fornecem continuamente novos serviços técnicos e de aplicações. Exemplo: novo portal de faturamento do cliente.
    2. Junto com Gestão de SLO, as equipes podem registrar serviços e definir objetivos de nível de serviço (SLOs), ajudando-as a alcançar resultados de negócios. Exemplo: disponibilidade mensal de 95% para o portal de faturamento.
    3. As integrações de monitoramento são configuradas pelas equipes para coletar a integridade em tempo real desses serviços. Exemplo: observabilidade de nuvem.
    4. O monitoramento cria indicadores de nível de serviço (SLIs) que afetam os alertas quando os serviços estão com desempenho insuficiente. A automação agrupa e aprimora. Exemplo: a latência do portal de faturamento excede 7 s.
    5. Quando os alertas indicam uma indisponibilidade ou degradação que afeta o cliente, os incidentes são criados e as notificações de plantão notificam os recursos da equipe apropriados. Exemplo: uma equipe de SRE de faturamento é notificada por telefone sobre um problema de latência no portal de faturamento.
    6. Depois que as equipes diagnosticam e corrigem incidentes de forma colaborativa, elas identificam itens de ação para melhorar a resiliência do sistema. Exemplo: a equipe de faturamento decide adicionar mais capacidade ao servidor web.
    7. A gestão revisa continuamente o desempenho do SLO, ajuda a evitar mudanças quando o limite de erros está esgotado e prioriza iniciativas de melhoria para serviços com desempenho insuficiente.

    Benefícios das SRM

    Benefício Recurso Usuários
    Experiência baseada em equipe Trabalhando com equipes da SRM Administradores, gerentes e respondentes de SRM
    Registro de serviço Como trabalhar com serviços da SRM Administradores, gerentes e respondentes de SRM
    Integrações pré-criadas Trabalhando com integrações da SRM Administradores, gerentes e respondentes de SRM
    Medir a integridade do serviço Trabalhando com o Métricas de confiabilidade Administradores, gerentes e respondentes de SRM
    Cobertura de plantão Criar programação de plantão da SRM Administradores, gerentes e respondentes de SRM
    Corrigir incidentes e alertas de gravidade alta Trabalhando com tarefas de confiabilidade SRM Administradores, gerentes e respondentes de SRM