Guardião do Now Assist

Yokohama Habilitar IA

Release

yokohama

ft:locale

pt-BR

ft:publication_title

Yokohama Habilitar IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Guardião do Now Assist

Versão de lançamento: Yokohama

Atualizado 30 de jan. de 2025

11 min. de leitura

Habilite Guardião do Now Assist, criado com o Llama 3.1, para monitorar e avaliar o conteúdo criado com IA generativa para ajudar a proteger e aprimorar a experiência do usuário.

Visão geral do guardião do Now Assist

A IA generativa é uma tecnologia emergente. As interações humanas são imprevisíveis e as saídas geradas por modelos de linguagem grandes (LLMs) são probabilísticas, o que significa que são baseadas em probabilidades. Executar a mesma entrada duas vezes pode gerar duas saídas diferentes. Gerenciar riscos é um elemento importante para decidir como você deseja implementar a IA generativa em suas instâncias.

O guardião do Now Assist monitora as solicitações enviadas aos LLMs e suas respostas para ajudar a proteger você, seus usuários e seus dados. Existem três tipos de conteúdo que são monitorados quanto a: conteúdo ofensivo ou prejudicial, tentativas de injeção de prompt e assuntos filtrados. Para conteúdo ofensivo e tentativas de injeção de aviso, os logs serão gerados se ativados, mas você também pode optar por bloquear o conteúdo. Quando um filtro tiver sido ativado, o conteúdo detectado ao qual o filtro se aplica redirecionará o usuário para o tópico Detecção de confidencialidade: fallback em Virtual Agent.

Grades de proteção

Conteúdo ofensivo: Devido à natureza probabilística da IA generativa, é possível que um LLM gere conteúdo ofensivo. Se houver conteúdo ofensivo na entrada da solicitação, também poderá ocorrer conteúdo ofensivo na resposta. Exemplos de conteúdo ofensivo incluem linguagem tóxica, difamatória ou fraudulenta.
Injeção de aviso: A injeção de aviso é um tipo de ataque de segurança em que agentes mal-intencionados substituem as instruções normais de um LLM para acessar informações restritas ou provocar comportamentos inesperados. A detecção de injeção de prompt é baseada no LLM que foi treinado em vários tipos de técnicas de injeção de prompt, como representação de função, parafraseamento, repetição, instruções para ignorar outras instruções, persuasão etc. No entanto, devido à natureza probabilística do modelo, bem como à evolução das técnicas de injeção de prompt, as tentativas de injeção de prompt podem não ser identificadas pelo guardião do Now Assist em alguns casos.
Assuntos filtrados: Certos assuntos, como segurança no local de trabalho ou remuneração de funcionários, podem não ser os mais adequados para conversas de IA generativa. Você pode ativar filtros que detectam se esses tipos de assuntos estão incluídos na conversa para que você possa redirecionar o usuário para o tópico Detecção de confidencialidade: fallback Virtual Agent.

Registro em log e bloqueio

O guardião do Now Assist pode monitorar solicitações e registrar em log quando esses tipos de material são detectados. Você pode acessar os logs no console do administrador do Now Assist na página do Now Assist Responsáveis da guia Configurações. Os dados incluídos nos logs incluem informações sobre a solicitação e a conversa que contém o conteúdo ofensivo, incluindo o feedback do usuário.

Além do registro em log, você também pode optar por bloquear conteúdo ofensivo ou solicitar tentativas de injeção. Se o material for detectado e o bloqueio estiver ativado, você verá uma mensagem de erro padrão em vez da resposta gerada. A mensagem é uma mensagem de erro padrão que indica que a solicitação não pôde ser concluída e você não vê o que a IA gerou.

Antes de decidir bloquear o conteúdo, você pode monitorar os logs por algum tempo para determinar a predominância desses problemas para você e seus casos de uso.

Redirecionamento para tópicos filtrados confidenciais

Depois que um tópico ao qual um filtro se aplica é identificado, o usuário é redirecionado para um tópico Virtual Agent diferente, dependendo do tipo de filtro. Os filtros para assuntos como problemas pessoais do funcionário serão redirecionados para o tópico Detecção de confidencialidade: fallback. Este tópico pode redirecionar um usuário para um atendente ou ajudá-lo a criar um caso de RH.

Guardião do Now Assist no tempo de execução

Todas as habilidades que usam o guardião do Now Assist removem informações de identificação pessoal (PII) antes que a solicitação atinja o LLM. Você pode escolher quais tipos de dados são capturados. Consulte Como configurar o Now Assist para privacidade de dados para obter mais informações.

Para habilidades de conversação, a pesquisa semântica processa solicitações para determinar se um filtro foi detectado. Em caso afirmativo, o usuário é redirecionado para um tópico Virtual Agent que pergunta se ele deseja fazer um caso de RH ou falar com um atendente.

Infográfico mostrando o guardião do Now Assist no tempo de execução com a proteção do filtro de sensibilidade

Para geração de item do catálogo e habilidades do agente, como resumo e geração de anotação de resolução, as proteções de injeção de ofensividade e sugestão são executadas nas entradas e saídas de solicitações. Se for detectado, o guardião do Now Assist registrará a solicitação. Se você optou por bloquear este conteúdo, uma mensagem de erro padrão será exibida e o usuário não verá o resultado da solicitação.

Infográfico mostrando o guardião do Now Assist no tempo de execução com proteções contra ataque e segurança

Categorias de segurança

A seguir estão os diferentes tipos de conteúdo que podem ser sinalizados como ofensivos ou representam um risco à segurança. Você pode identificar quais categorias estão sendo detectadas nos logs do guardião do Now Assist para as diferentes proteções.
Categoria	ID da Categoria	Descrição
Conteúdo tóxico	O1	Não deve: promover o incitamento ao incitamento ao incitamento ao incitamento à violência, como abuso infantil ou assédio, nem se envolver em ataques ou assédio pessoais. Pode: discuta os impactos e problemas sociais relacionados ao conteúdo tóxica para fins educacionais.
Representação distorcida	O2	Não deve: ajudar na manutenção de estereótipos ou incentivar a discriminação ou o viés. Pode: discutir problemas de representação e promover a conscientização e a inclusão.
Conteúdo adulto	O3	Não deve: exibir material sexualmente explícito ou conteúdo inadequado para menores de idade, incluindo pornografia, bate-papo erótico e atividade sexual. Pode: oferecer discussões educacionais sobre tópicos relacionados à orientação sexual e consentimento.
Perda de confiança nas informações públicas	O4	Não deve: propagar informações incorretas ou desinformativas que prejudiquem a confiança do público, como conselhos médicos enganosos, drogas ilícitas e conselhos. Pode: analisar tendências de desinformação e educar sobre alfabetização midiática.
Propagação de conceitos errados/crenças falsas	O5	Não deve: disseminar informações não verificadas e enganosas, teorias da conspiração, negacionismo da ciência, revisionismo histórico ou conteúdo que possa levar à racionalização. Pode: fornecer análise crítica e desmascarar equívocos comuns e falsas convicções.
Práticas financeiras arriscadas	O6	Não deve: promover práticas comerciais antiéticas, como marketing multinível, práticas de empréstimo enganosas ou jogos de azar. Pode: educar sobre riscos associados, empréstimo ético, jogo responsável, conformidade comercial e práticas de negócios justas.
Comércio e conformidade	O7	Não deve: envolver questões trabalhistas, envolver-se em assuntos comerciais antiéticos, contribuir para práticas trabalhistas injustas ou promover práticas comerciais fraudulentas. Pode: fornecer informações e informações sobre questões trabalhistas, práticas comerciais éticas, conformidade comercial e conduta comercial justa.
Disseminação de informações perigosas	O8	Não deve: propagar notícias falsas, propagar boatos nas mídias sociais, divulgar segredos do governo ou vazar dados financeiros e outros conteúdos que contribuam para o pânico público ou a segurança nacional. Pode: educar sobre os perigos dessas informações e promover a segurança.
Violação de privacidade	O9	Não deve: envolver doxxing, compartilhamento não autorizado de dados ou vigilância, como inferência ou vazamento de informações privadas. Pode: discuta a importância dos direitos de privacidade e da segurança digital.
Ameaças à segurança	O10	Não deve: disseminar malware ou incentivar o tráfico ou outras ameaças à segurança, como geração de armamentos, ataques cibernéticos ou danos químicos. Pode: fornecer informações e métodos para identificar e mitigar ameaças à segurança.
Difamação	O11	Não deve: publicar declarações falsas que prejudiquem indivíduos, grupos ou organizações. Pode: explorar os aspectos jurídicos e éticos da difamação e da liberdade de expressão.
Fraude ou ação enganosa	O12	Não deve: envolver-se em desonestidade acadêmica, perpetrar golpes, promover pseudofarmacêuticos ou disseminar conteúdo on-line falso. O conteúdo não deve iludir ou fraudar indivíduos. Pode: instruir sobre como reconhecer e impedir atividades fraudulentas.
Operações de influência	O13	Não deve: Manipular a opinião pública ou perturbar a união social para fins de política ou ideologia, como vigilância ou campanha. Pode: analisar e educar sobre a natureza e o impacto das operações de influência.
Atividades ilegais	O14	Não deve: promover ou fornecer orientações sobre como se envolver em ações ilegais, como crimes ou atos de violência. Pode: educar sobre as consequências e a prevenção de atividades ilegais.
Persuasão e manipulação	O15	Não deve: envolver técnicas de persuasão ou manipulação que promovam automutilação, manipulação lógica ou qualquer forma de dano ao bem-estar dos indivíduos. Pode: educar sobre como reconhecer e resis- tir à manipulação, oferecer suporte e recursos para as pessoas afetadas.
Violação de propriedade pessoal	O16	Não deve: violar a propriedade pessoal de um indivíduo, envolvendo imitação mal-intencionada, plágio, violação de direitos autorais e falsificação de identidade. Pode: promover conscientização e discussões sobre como respeitar a propriedade pessoal e evitar essas violações.

Habilidades que oferecem suporte ao guardião do Now Assist

Tabela 1. Habilidades compatíveis por fluxo de trabalho
Fluxo de trabalho	Habilidades compatíveis por produto
Tecnologia	Now Assist for Configuration Management Database (CMDB) Resumo do item de configuração (IC) Gerenciar itens de configuração (ICs) duplicados Now Assist for IT Operations Management (ITOM) Análise de alerta Investigação de alertas Now Assist for IT Service Management (ITSM) Explicação do risco da solicitação de mudança Resumo da solicitação de mudança Recomendação de bate-papo Resumo do bate-papo Assistência de incidente Resumo do incidente Geração de KB Geração de anotações de resolução Barra lateral resumo Now Assist for Security Incident Response Análise pós-incidente Ações recomendadas de incidente de segurança Resumo do incidente de segurança Geração de anotações de resolução Diagnosticar um Conector do Service Graph Now Assist for Strategic Portfolio Management (SPM) Enviar o resumo do projeto por e-mail Resumo do feedback Resumo de multifeedback Documentos de IA generativa do projeto Documentos de IA generativa do item de planejamento Documentos de IA generativa de equipes de EAP
Cliente	Now Assist for Customer Service Management (CSM) Resumo do caso Recomendação de bate-papo Resumo do bate-papo Recomendação de e-mail Geração de KB Geração de anotações de resolução Barra lateral resumo Resumo da chamada de voz Now Assist for Field Service Management (FSM) Geração de KB Barra lateral resumo Resumo do fechamento da tarefa de ordem de serviço Now Assist for Financial Services Operations (FSO) Resumo do caso de sinistro Resumo do caso de contestação Now Assist for PSDS Resumo do bate-papo Resumo de caso de governança Geração de anotações de resolução
Funcionário	Now Assist for Health and Safety Resumo do incidente de Saúde e segurança Now Assist for HR Service Delivery (HRSD) Resumo do bate-papo Resumo do caso Geração de KB Geração de anotações de resolução Now Assist for Legal Service Delivery (LSD) Resumo do assunto jurídico Resumo da solicitação jurídica Habilidades para Now Assist in Contract Management: Análise de contrato Extração de metadados do contrato
Criador	Now Assist for Creator Geração de item do catálogo
Finanças e cadeia de suprimentos	Now Assist for Accounts Payable Operations (APO) Resumo do caso de fatura Now Assist for Supplier Lifecycle Operations (SLO) Resumo do caso do fornecedor Now Assist for Sourcing and Procurement Operations (SPO) Resumo do executante para Sourcing and Procurement Operations

Guardião do Now Assist análise

Monitore o desempenho das proteções habilitadas por meio de Guardião do Now Assist.

O Guardião do Now Assist painel de análise ajuda os administradores a monitorar e avaliar a eficácia do conteúdo ofensivo e das proteções de injeção de prompt no acompanhamento e análise de solicitações enviadas para modelos de linguagem grandes (LLM) e suas respostas.

Página do painel de injeção de prompt — Figura 1. Guardião do Now Assist página do painel

Os indicadores na página do painel Guardião do Now Assist fornecem as informações a seguir.

Latência média como resultado de conteúdo ofensivo ativo e proteções de injeção de prompt. A alta latência pode significar maior atividade de proteção no período.
Contagem e porcentagem de conteúdo ofensivo e ocorrências de injeção de prompt.
Habilidades em que foram detectadas ocorrências de conteúdo ofensivo e injeção de prompt.

Aplique os filtros no painel para exibir a atividade de proteção das habilidades em um intervalo de datas. Consulte Análise do Now Assist detalhes do indicador do painel para obter informações sobre os dados e cálculos por trás de cada indicador.

Indicadores de conteúdo ofensivo

Latência adicionada ao guardrail: Esta área do painel mostra a latência média como resultado da proteção de conteúdo ofensivo ativo para as habilidades e o intervalo de datas selecionados.

Figura 2. Indicador de latência adicionado ao guardrail
Percentual sinalizado como ofensivo: Esta área do painel mostra a porcentagem de solicitações e respostas de e para o serviço LLM que são sinalizadas quanto a conteúdo ofensivo.

Figura 3. Percentual sinalizado como indicador ofensivo
Total de ocorrências de conteúdo ofensivo: Esta área do painel mostra o número total de ocorrências de conteúdo ofensivo para as habilidades e o intervalo de datas selecionados.

Figura 4. Indicador de total de ocorrências de conteúdo ofensivo
Categorias de conteúdo ofensivo: Esta área do painel mostra um detalhamento das ocorrências de conteúdo ofensivo por categorias. Se o conteúdo for considerado ofensivo em mais de uma categoria, por exemplo, tóxica e difamatória, a ocorrência será contada individualmente para ambas as categorias. Para obter mais informações sobre categorias de conteúdo ofensivo, consulte Guardião do Now Assist.

Figura 5. Indicador de categorias de conteúdo ofensivo
Ocorrências de conteúdo ofensivo por habilidade: Esta área do painel mostra o número de ocorrências de conteúdo ofensivo ao longo do tempo pelas habilidades nas quais o conteúdo foi detectado.

Figura 6. Ocorrências de conteúdo ofensivo por indicador de habilidade

Indicadores de injeção de prompt

Latência adicionada ao guardrail: Esta área do painel mostra a latência média como resultado da proteção de injeção de prompt ativa para as habilidades e o intervalo de datas selecionados.

Figura 7. Indicador de latência adicionado ao guardrail
Percentual sinalizado como injeção de prompt: Esta área do painel mostra a porcentagem de solicitações e respostas de e para o serviço LLM que são sinalizadas quanto a conteúdo ofensivo.

Figura 8. Percentual sinalizado como indicador de injeção de prompt
Total de ocorrências de injeção de prompt: Esta área do painel mostra o número total de ocorrências de conteúdo ofensivo para as habilidades e o intervalo de datas selecionados.

Figura 9. Indicador de total de ocorrências de injeção de prompt
Ocorrências de injeção de aviso por habilidade: Esta área do painel mostra o número de ocorrências de injeção de prompt ao longo do tempo pelas habilidades em que as tentativas de injeção de prompt foram detectadas.

Figura 10. Ocorrências de injeção de aviso por indicador de habilidade