Guardião do Now Assist

  • Versão de lançamento: Yokohama
  • Atualizado 30 de jan. de 2025
  • 11 min. de leitura
  • Habilite Guardião do Now Assist, criado com o Llama 3.1, para monitorar e avaliar o conteúdo criado com IA generativa para ajudar a proteger e aprimorar a experiência do usuário.

    Visão geral do guardião do Now Assist

    A IA generativa é uma tecnologia emergente. As interações humanas são imprevisíveis e as saídas geradas por modelos de linguagem grandes (LLMs) são probabilísticas, o que significa que são baseadas em probabilidades. Executar a mesma entrada duas vezes pode gerar duas saídas diferentes. Gerenciar riscos é um elemento importante para decidir como você deseja implementar a IA generativa em suas instâncias.

    O guardião do Now Assist monitora as solicitações enviadas aos LLMs e suas respostas para ajudar a proteger você, seus usuários e seus dados. Existem três tipos de conteúdo que são monitorados quanto a: conteúdo ofensivo ou prejudicial, tentativas de injeção de prompt e assuntos filtrados. Para conteúdo ofensivo e tentativas de injeção de aviso, os logs serão gerados se ativados, mas você também pode optar por bloquear o conteúdo. Quando um filtro tiver sido ativado, o conteúdo detectado ao qual o filtro se aplica redirecionará o usuário para o tópico Detecção de confidencialidade: fallback em Virtual Agent.

    Grades de proteção

    Conteúdo ofensivo
    Devido à natureza probabilística da IA generativa, é possível que um LLM gere conteúdo ofensivo. Se houver conteúdo ofensivo na entrada da solicitação, também poderá ocorrer conteúdo ofensivo na resposta. Exemplos de conteúdo ofensivo incluem linguagem tóxica, difamatória ou fraudulenta.
    Injeção de aviso
    A injeção de aviso é um tipo de ataque de segurança em que agentes mal-intencionados substituem as instruções normais de um LLM para acessar informações restritas ou provocar comportamentos inesperados. A detecção de injeção de prompt é baseada no LLM que foi treinado em vários tipos de técnicas de injeção de prompt, como representação de função, parafraseamento, repetição, instruções para ignorar outras instruções, persuasão etc. No entanto, devido à natureza probabilística do modelo, bem como à evolução das técnicas de injeção de prompt, as tentativas de injeção de prompt podem não ser identificadas pelo guardião do Now Assist em alguns casos.
    Assuntos filtrados
    Certos assuntos, como segurança no local de trabalho ou remuneração de funcionários, podem não ser os mais adequados para conversas de IA generativa. Você pode ativar filtros que detectam se esses tipos de assuntos estão incluídos na conversa para que você possa redirecionar o usuário para o tópico Detecção de confidencialidade: fallback Virtual Agent.

    Registro em log e bloqueio

    O guardião do Now Assist pode monitorar solicitações e registrar em log quando esses tipos de material são detectados. Você pode acessar os logs no console do administrador do Now Assist na página do Now Assist Responsáveis da guia Configurações. Os dados incluídos nos logs incluem informações sobre a solicitação e a conversa que contém o conteúdo ofensivo, incluindo o feedback do usuário.

    Além do registro em log, você também pode optar por bloquear conteúdo ofensivo ou solicitar tentativas de injeção. Se o material for detectado e o bloqueio estiver ativado, você verá uma mensagem de erro padrão em vez da resposta gerada. A mensagem é uma mensagem de erro padrão que indica que a solicitação não pôde ser concluída e você não vê o que a IA gerou.

    Antes de decidir bloquear o conteúdo, você pode monitorar os logs por algum tempo para determinar a predominância desses problemas para você e seus casos de uso.

    Redirecionamento para tópicos filtrados confidenciais

    Depois que um tópico ao qual um filtro se aplica é identificado, o usuário é redirecionado para um tópico Virtual Agent diferente, dependendo do tipo de filtro. Os filtros para assuntos como problemas pessoais do funcionário serão redirecionados para o tópico Detecção de confidencialidade: fallback. Este tópico pode redirecionar um usuário para um atendente ou ajudá-lo a criar um caso de RH.

    Guardião do Now Assist no tempo de execução

    Todas as habilidades que usam o guardião do Now Assist removem informações de identificação pessoal (PII) antes que a solicitação atinja o LLM. Você pode escolher quais tipos de dados são capturados. Consulte Como configurar o Now Assist para privacidade de dados para obter mais informações.

    Para habilidades de conversação, a pesquisa semântica processa solicitações para determinar se um filtro foi detectado. Em caso afirmativo, o usuário é redirecionado para um tópico Virtual Agent que pergunta se ele deseja fazer um caso de RH ou falar com um atendente.

    Infográfico mostrando o guardião do Now Assist no tempo de execução com a proteção do filtro de sensibilidade

    Para geração de item do catálogo e habilidades do agente, como resumo e geração de anotação de resolução, as proteções de injeção de ofensividade e sugestão são executadas nas entradas e saídas de solicitações. Se for detectado, o guardião do Now Assist registrará a solicitação. Se você optou por bloquear este conteúdo, uma mensagem de erro padrão será exibida e o usuário não verá o resultado da solicitação.

    Infográfico mostrando o guardião do Now Assist no tempo de execução com proteções contra ataque e segurança

    Categorias de segurança

    A seguir estão os diferentes tipos de conteúdo que podem ser sinalizados como ofensivos ou representam um risco à segurança. Você pode identificar quais categorias estão sendo detectadas nos logs do guardião do Now Assist para as diferentes proteções.

    Categoria

    ID da Categoria

    Descrição

    Conteúdo tóxico

    O1

    Não deve: promover o incitamento ao incitamento ao incitamento ao incitamento à violência, como abuso infantil ou assédio, nem se envolver em ataques ou assédio pessoais.

    Pode: discuta os impactos e problemas sociais relacionados ao conteúdo tóxica para fins educacionais.

    Representação distorcida

    O2

    Não deve: ajudar na manutenção de estereótipos ou incentivar a discriminação ou o viés.

    Pode: discutir problemas de representação e promover a conscientização e a inclusão.

    Conteúdo adulto

    O3

    Não deve: exibir material sexualmente explícito ou conteúdo inadequado para menores de idade, incluindo pornografia, bate-papo erótico e atividade sexual.

    Pode: oferecer discussões educacionais sobre tópicos relacionados à orientação sexual e consentimento.

    Perda de confiança nas informações públicas

    O4

    Não deve: propagar informações incorretas ou desinformativas que prejudiquem a confiança do público, como conselhos médicos enganosos, drogas ilícitas e conselhos.

    Pode: analisar tendências de desinformação e educar sobre alfabetização midiática.

    Propagação de conceitos errados/crenças falsas

    O5

    Não deve: disseminar informações não verificadas e enganosas, teorias da conspiração, negacionismo da ciência, revisionismo histórico ou conteúdo que possa levar à racionalização.

    Pode: fornecer análise crítica e desmascarar equívocos comuns e falsas convicções.

    Práticas financeiras arriscadas

    O6

    Não deve: promover práticas comerciais antiéticas, como marketing multinível, práticas de empréstimo enganosas ou jogos de azar.

    Pode: educar sobre riscos associados, empréstimo ético, jogo responsável, conformidade comercial e práticas de negócios justas.

    Comércio e conformidade

    O7

    Não deve: envolver questões trabalhistas, envolver-se em assuntos comerciais antiéticos, contribuir para práticas trabalhistas injustas ou promover práticas comerciais fraudulentas.

    Pode: fornecer informações e informações sobre questões trabalhistas, práticas comerciais éticas, conformidade comercial e conduta comercial justa.

    Disseminação de informações perigosas

    O8

    Não deve: propagar notícias falsas, propagar boatos nas mídias sociais, divulgar segredos do governo ou vazar dados financeiros e outros conteúdos que contribuam para o pânico público ou a segurança nacional.

    Pode: educar sobre os perigos dessas informações e promover a segurança.

    Violação de privacidade

    O9

    Não deve: envolver doxxing, compartilhamento não autorizado de dados ou vigilância, como inferência ou vazamento de informações privadas.

    Pode: discuta a importância dos direitos de privacidade e da segurança digital.

    Ameaças à segurança

    O10

    Não deve: disseminar malware ou incentivar o tráfico ou outras ameaças à segurança, como geração de armamentos, ataques cibernéticos ou danos químicos.

    Pode: fornecer informações e métodos para identificar e mitigar ameaças à segurança.

    Difamação

    O11

    Não deve: publicar declarações falsas que prejudiquem indivíduos, grupos ou organizações.

    Pode: explorar os aspectos jurídicos e éticos da difamação e da liberdade de expressão.

    Fraude ou ação enganosa

    O12

    Não deve: envolver-se em desonestidade acadêmica, perpetrar golpes, promover pseudofarmacêuticos ou disseminar conteúdo on-line falso. O conteúdo não deve iludir ou fraudar indivíduos.

    Pode: instruir sobre como reconhecer e impedir atividades fraudulentas.

    Operações de influência

    O13

    Não deve: Manipular a opinião pública ou perturbar a união social para fins de política ou ideologia, como vigilância ou campanha.

    Pode: analisar e educar sobre a natureza e o impacto das operações de influência.

    Atividades ilegais

    O14

    Não deve: promover ou fornecer orientações sobre como se envolver em ações ilegais, como crimes ou atos de violência.

    Pode: educar sobre as consequências e a prevenção de atividades ilegais.

    Persuasão e manipulação

    O15

    Não deve: envolver técnicas de persuasão ou manipulação que promovam automutilação, manipulação lógica ou qualquer forma de dano ao bem-estar dos indivíduos.

    Pode: educar sobre como reconhecer e resis- tir à manipulação, oferecer suporte e recursos para as pessoas afetadas.

    Violação de propriedade pessoal

    O16

    Não deve: violar a propriedade pessoal de um indivíduo, envolvendo imitação mal-intencionada, plágio, violação de direitos autorais e falsificação de identidade.

    Pode: promover conscientização e discussões sobre como respeitar a propriedade pessoal e evitar essas violações.

    Habilidades que oferecem suporte ao guardião do Now Assist

    Tabela 1. Habilidades compatíveis por fluxo de trabalho
    Fluxo de trabalho Habilidades compatíveis por produto
    Tecnologia
    Now Assist for Configuration Management Database (CMDB)
    Now Assist for IT Operations Management (ITOM)
    Now Assist for IT Service Management (ITSM)
    Now Assist for Security Incident Response
    Diagnosticar um Conector do Service Graph
    Now Assist for Strategic Portfolio Management (SPM)
    Cliente
    Now Assist for Customer Service Management (CSM)
    Now Assist for Field Service Management (FSM)
    Now Assist for Financial Services Operations (FSO)
    Now Assist for PSDS
    Funcionário
    Now Assist for Health and Safety
    Resumo do incidente de Saúde e segurança
    Now Assist for HR Service Delivery (HRSD)
    Now Assist for Legal Service Delivery (LSD)
    Resumo do assunto jurídico
    Resumo da solicitação jurídica
    Habilidades para Now Assist in Contract Management:
    Criador
    Now Assist for Creator
    Geração de item do catálogo
    Finanças e cadeia de suprimentos
    Now Assist for Accounts Payable Operations (APO)
    Resumo do caso de fatura
    Now Assist for Supplier Lifecycle Operations (SLO)
    Resumo do caso do fornecedor
    Now Assist for Sourcing and Procurement Operations (SPO)
    Resumo do executante para Sourcing and Procurement Operations

    Guardião do Now Assist análise

    Monitore o desempenho das proteções habilitadas por meio de Guardião do Now Assist.

    O Guardião do Now Assist painel de análise ajuda os administradores a monitorar e avaliar a eficácia do conteúdo ofensivo e das proteções de injeção de prompt no acompanhamento e análise de solicitações enviadas para modelos de linguagem grandes (LLM) e suas respostas.

    Figura 1. Guardião do Now Assist página do painel
    Página do painel de injeção de prompt
    Os indicadores na página do painel Guardião do Now Assist fornecem as informações a seguir.
    • Latência média como resultado de conteúdo ofensivo ativo e proteções de injeção de prompt. A alta latência pode significar maior atividade de proteção no período.
    • Contagem e porcentagem de conteúdo ofensivo e ocorrências de injeção de prompt.
    • Habilidades em que foram detectadas ocorrências de conteúdo ofensivo e injeção de prompt.

    Aplique os filtros no painel para exibir a atividade de proteção das habilidades em um intervalo de datas. Consulte Análise do Now Assist detalhes do indicador do painel para obter informações sobre os dados e cálculos por trás de cada indicador.

    Indicadores de conteúdo ofensivo

    Latência adicionada ao guardrail
    Esta área do painel mostra a latência média como resultado da proteção de conteúdo ofensivo ativo para as habilidades e o intervalo de datas selecionados.
    Figura 2. Indicador de latência adicionado ao guardrail
    Latência da proteção para injeção de prompt.
    Percentual sinalizado como ofensivo
    Esta área do painel mostra a porcentagem de solicitações e respostas de e para o serviço LLM que são sinalizadas quanto a conteúdo ofensivo.
    Figura 3. Percentual sinalizado como indicador ofensivo
    Percentual de ocorrências de conteúdo ofensivo.
    Total de ocorrências de conteúdo ofensivo
    Esta área do painel mostra o número total de ocorrências de conteúdo ofensivo para as habilidades e o intervalo de datas selecionados.
    Figura 4. Indicador de total de ocorrências de conteúdo ofensivo
    Total de ocorrências de conteúdo ofensivo.
    Categorias de conteúdo ofensivo
    Esta área do painel mostra um detalhamento das ocorrências de conteúdo ofensivo por categorias. Se o conteúdo for considerado ofensivo em mais de uma categoria, por exemplo, tóxica e difamatória, a ocorrência será contada individualmente para ambas as categorias. Para obter mais informações sobre categorias de conteúdo ofensivo, consulte Guardião do Now Assist.
    Figura 5. Indicador de categorias de conteúdo ofensivo
    Indicador de categorias de conteúdo ofensivo.
    Ocorrências de conteúdo ofensivo por habilidade
    Esta área do painel mostra o número de ocorrências de conteúdo ofensivo ao longo do tempo pelas habilidades nas quais o conteúdo foi detectado.
    Figura 6. Ocorrências de conteúdo ofensivo por indicador de habilidade
    Ocorrências de conteúdo ofensivo por habilidade.

    Indicadores de injeção de prompt

    Latência adicionada ao guardrail
    Esta área do painel mostra a latência média como resultado da proteção de injeção de prompt ativa para as habilidades e o intervalo de datas selecionados.
    Figura 7. Indicador de latência adicionado ao guardrail
    Indicador de latência adicionado ao guardrail.
    Percentual sinalizado como injeção de prompt
    Esta área do painel mostra a porcentagem de solicitações e respostas de e para o serviço LLM que são sinalizadas quanto a conteúdo ofensivo.
    Figura 8. Percentual sinalizado como indicador de injeção de prompt
    Percentual sinalizado como indicador de injeção de prompt.
    Total de ocorrências de injeção de prompt
    Esta área do painel mostra o número total de ocorrências de conteúdo ofensivo para as habilidades e o intervalo de datas selecionados.
    Figura 9. Indicador de total de ocorrências de injeção de prompt
    Total de ocorrências de injeção de prompt
    Ocorrências de injeção de aviso por habilidade
    Esta área do painel mostra o número de ocorrências de injeção de prompt ao longo do tempo pelas habilidades em que as tentativas de injeção de prompt foram detectadas.
    Figura 10. Ocorrências de injeção de aviso por indicador de habilidade
    Ocorrências de injeção de aviso por indicador de habilidade.