Guardião do Now Assist
Habilite Guardião do Now Assist, criado com o Llama 3.1, para monitorar e avaliar o conteúdo criado com IA generativa para ajudar a proteger e aprimorar a experiência do usuário.
Visão geral do guardião do Now Assist
A IA generativa é uma tecnologia emergente. As interações humanas são imprevisíveis e as saídas geradas por modelos de linguagem grandes (LLMs) são probabilísticas, o que significa que são baseadas em probabilidades. Executar a mesma entrada duas vezes pode gerar duas saídas diferentes. Gerenciar riscos é um elemento importante para decidir como você deseja implementar a IA generativa em suas instâncias.
O guardião do Now Assist monitora as solicitações enviadas aos LLMs e suas respostas para ajudar a proteger você, seus usuários e seus dados. Existem três tipos de conteúdo que são monitorados quanto a: conteúdo ofensivo ou prejudicial, tentativas de injeção de prompt e assuntos filtrados. Para conteúdo ofensivo e tentativas de injeção de aviso, os logs serão gerados se ativados, mas você também pode optar por bloquear o conteúdo. Quando um filtro tiver sido ativado, o conteúdo detectado ao qual o filtro se aplica redirecionará o usuário para o tópico Detecção de confidencialidade: fallback em Virtual Agent.
Grades de proteção
- Conteúdo ofensivo
- Devido à natureza probabilística da IA generativa, é possível que um LLM gere conteúdo ofensivo. Se houver conteúdo ofensivo na entrada da solicitação, também poderá ocorrer conteúdo ofensivo na resposta. Exemplos de conteúdo ofensivo incluem linguagem tóxica, difamatória ou fraudulenta.
- Injeção de aviso
- A injeção de aviso é um tipo de ataque de segurança em que agentes mal-intencionados substituem as instruções normais de um LLM para acessar informações restritas ou provocar comportamentos inesperados. A detecção de injeção de prompt é baseada no LLM que foi treinado em vários tipos de técnicas de injeção de prompt, como representação de função, parafraseamento, repetição, instruções para ignorar outras instruções, persuasão etc. No entanto, devido à natureza probabilística do modelo, bem como à evolução das técnicas de injeção de prompt, as tentativas de injeção de prompt podem não ser identificadas pelo guardião do Now Assist em alguns casos.
- Assuntos filtrados
- Certos assuntos, como segurança no local de trabalho ou remuneração de funcionários, podem não ser os mais adequados para conversas de IA generativa. Você pode ativar filtros que detectam se esses tipos de assuntos estão incluídos na conversa para que você possa redirecionar o usuário para o tópico Detecção de confidencialidade: fallback Virtual Agent.
Registro em log e bloqueio
O guardião do Now Assist pode monitorar solicitações e registrar em log quando esses tipos de material são detectados. Você pode acessar os logs no console do administrador do Now Assist na página do Now Assist Responsáveis da guia Configurações. Os dados incluídos nos logs incluem informações sobre a solicitação e a conversa que contém o conteúdo ofensivo, incluindo o feedback do usuário.
Além do registro em log, você também pode optar por bloquear conteúdo ofensivo ou solicitar tentativas de injeção. Se o material for detectado e o bloqueio estiver ativado, você verá uma mensagem de erro padrão em vez da resposta gerada. A mensagem é uma mensagem de erro padrão que indica que a solicitação não pôde ser concluída e você não vê o que a IA gerou.
Antes de decidir bloquear o conteúdo, você pode monitorar os logs por algum tempo para determinar a predominância desses problemas para você e seus casos de uso.
Redirecionamento para tópicos filtrados confidenciais
Depois que um tópico ao qual um filtro se aplica é identificado, o usuário é redirecionado para um tópico Virtual Agent diferente, dependendo do tipo de filtro. Os filtros para assuntos como problemas pessoais do funcionário serão redirecionados para o tópico Detecção de confidencialidade: fallback. Este tópico pode redirecionar um usuário para um atendente ou ajudá-lo a criar um caso de RH.
Guardião do Now Assist no tempo de execução
Todas as habilidades que usam o guardião do Now Assist removem informações de identificação pessoal (PII) antes que a solicitação atinja o LLM. Você pode escolher quais tipos de dados são capturados. Consulte Como configurar o Now Assist para privacidade de dados para obter mais informações.
Para habilidades de conversação, a pesquisa semântica processa solicitações para determinar se um filtro foi detectado. Em caso afirmativo, o usuário é redirecionado para um tópico Virtual Agent que pergunta se ele deseja fazer um caso de RH ou falar com um atendente.
Para geração de item do catálogo e habilidades do agente, como resumo e geração de anotação de resolução, as proteções de injeção de ofensividade e sugestão são executadas nas entradas e saídas de solicitações. Se for detectado, o guardião do Now Assist registrará a solicitação. Se você optou por bloquear este conteúdo, uma mensagem de erro padrão será exibida e o usuário não verá o resultado da solicitação.
Categorias de segurança
|
Categoria |
ID da Categoria |
Descrição |
|---|---|---|
|
Conteúdo tóxico |
O1 |
Não deve: promover o incitamento ao incitamento ao incitamento ao incitamento à violência, como abuso infantil ou assédio, nem se envolver em ataques ou assédio pessoais. Pode: discuta os impactos e problemas sociais relacionados ao conteúdo tóxica para fins educacionais. |
|
Representação distorcida |
O2 |
Não deve: ajudar na manutenção de estereótipos ou incentivar a discriminação ou o viés. Pode: discutir problemas de representação e promover a conscientização e a inclusão. |
|
Conteúdo adulto |
O3 |
Não deve: exibir material sexualmente explícito ou conteúdo inadequado para menores de idade, incluindo pornografia, bate-papo erótico e atividade sexual. Pode: oferecer discussões educacionais sobre tópicos relacionados à orientação sexual e consentimento. |
|
Perda de confiança nas informações públicas |
O4 |
Não deve: propagar informações incorretas ou desinformativas que prejudiquem a confiança do público, como conselhos médicos enganosos, drogas ilícitas e conselhos. Pode: analisar tendências de desinformação e educar sobre alfabetização midiática. |
|
Propagação de conceitos errados/crenças falsas |
O5 |
Não deve: disseminar informações não verificadas e enganosas, teorias da conspiração, negacionismo da ciência, revisionismo histórico ou conteúdo que possa levar à racionalização. Pode: fornecer análise crítica e desmascarar equívocos comuns e falsas convicções. |
|
Práticas financeiras arriscadas |
O6 |
Não deve: promover práticas comerciais antiéticas, como marketing multinível, práticas de empréstimo enganosas ou jogos de azar. Pode: educar sobre riscos associados, empréstimo ético, jogo responsável, conformidade comercial e práticas de negócios justas. |
|
Comércio e conformidade |
O7 |
Não deve: envolver questões trabalhistas, envolver-se em assuntos comerciais antiéticos, contribuir para práticas trabalhistas injustas ou promover práticas comerciais fraudulentas. Pode: fornecer informações e informações sobre questões trabalhistas, práticas comerciais éticas, conformidade comercial e conduta comercial justa. |
|
Disseminação de informações perigosas |
O8 |
Não deve: propagar notícias falsas, propagar boatos nas mídias sociais, divulgar segredos do governo ou vazar dados financeiros e outros conteúdos que contribuam para o pânico público ou a segurança nacional. Pode: educar sobre os perigos dessas informações e promover a segurança. |
|
Violação de privacidade |
O9 |
Não deve: envolver doxxing, compartilhamento não autorizado de dados ou vigilância, como inferência ou vazamento de informações privadas. Pode: discuta a importância dos direitos de privacidade e da segurança digital. |
|
Ameaças à segurança |
O10 |
Não deve: disseminar malware ou incentivar o tráfico ou outras ameaças à segurança, como geração de armamentos, ataques cibernéticos ou danos químicos. Pode: fornecer informações e métodos para identificar e mitigar ameaças à segurança. |
|
Difamação |
O11 |
Não deve: publicar declarações falsas que prejudiquem indivíduos, grupos ou organizações. Pode: explorar os aspectos jurídicos e éticos da difamação e da liberdade de expressão. |
|
Fraude ou ação enganosa |
O12 |
Não deve: envolver-se em desonestidade acadêmica, perpetrar golpes, promover pseudofarmacêuticos ou disseminar conteúdo on-line falso. O conteúdo não deve iludir ou fraudar indivíduos. Pode: instruir sobre como reconhecer e impedir atividades fraudulentas. |
|
Operações de influência |
O13 |
Não deve: Manipular a opinião pública ou perturbar a união social para fins de política ou ideologia, como vigilância ou campanha. Pode: analisar e educar sobre a natureza e o impacto das operações de influência. |
|
Atividades ilegais |
O14 |
Não deve: promover ou fornecer orientações sobre como se envolver em ações ilegais, como crimes ou atos de violência. Pode: educar sobre as consequências e a prevenção de atividades ilegais. |
|
Persuasão e manipulação |
O15 |
Não deve: envolver técnicas de persuasão ou manipulação que promovam automutilação, manipulação lógica ou qualquer forma de dano ao bem-estar dos indivíduos. Pode: educar sobre como reconhecer e resis- tir à manipulação, oferecer suporte e recursos para as pessoas afetadas. |
|
Violação de propriedade pessoal |
O16 |
Não deve: violar a propriedade pessoal de um indivíduo, envolvendo imitação mal-intencionada, plágio, violação de direitos autorais e falsificação de identidade. Pode: promover conscientização e discussões sobre como respeitar a propriedade pessoal e evitar essas violações. |
Habilidades que oferecem suporte ao guardião do Now Assist
| Fluxo de trabalho | Habilidades compatíveis por produto |
|---|---|
| Tecnologia | |
| Cliente | |
| Funcionário | |
| Criador | |
| Finanças e cadeia de suprimentos |
Guardião do Now Assist análise
Monitore o desempenho das proteções habilitadas por meio de Guardião do Now Assist.
O Guardião do Now Assist painel de análise ajuda os administradores a monitorar e avaliar a eficácia do conteúdo ofensivo e das proteções de injeção de prompt no acompanhamento e análise de solicitações enviadas para modelos de linguagem grandes (LLM) e suas respostas.
- Latência média como resultado de conteúdo ofensivo ativo e proteções de injeção de prompt. A alta latência pode significar maior atividade de proteção no período.
- Contagem e porcentagem de conteúdo ofensivo e ocorrências de injeção de prompt.
- Habilidades em que foram detectadas ocorrências de conteúdo ofensivo e injeção de prompt.
Aplique os filtros no painel para exibir a atividade de proteção das habilidades em um intervalo de datas. Consulte Análise do Now Assist detalhes do indicador do painel para obter informações sobre os dados e cálculos por trás de cada indicador.
Indicadores de conteúdo ofensivo
- Latência adicionada ao guardrail
- Esta área do painel mostra a latência média como resultado da proteção de conteúdo ofensivo ativo para as habilidades e o intervalo de datas selecionados.
Figura 2. Indicador de latência adicionado ao guardrail - Percentual sinalizado como ofensivo
- Esta área do painel mostra a porcentagem de solicitações e respostas de e para o serviço LLM que são sinalizadas quanto a conteúdo ofensivo.
Figura 3. Percentual sinalizado como indicador ofensivo - Total de ocorrências de conteúdo ofensivo
- Esta área do painel mostra o número total de ocorrências de conteúdo ofensivo para as habilidades e o intervalo de datas selecionados.
Figura 4. Indicador de total de ocorrências de conteúdo ofensivo - Categorias de conteúdo ofensivo
- Esta área do painel mostra um detalhamento das ocorrências de conteúdo ofensivo por categorias. Se o conteúdo for considerado ofensivo em mais de uma categoria, por exemplo, tóxica e difamatória, a ocorrência será contada individualmente para ambas as categorias. Para obter mais informações sobre categorias de conteúdo ofensivo, consulte Guardião do Now Assist.
Figura 5. Indicador de categorias de conteúdo ofensivo - Ocorrências de conteúdo ofensivo por habilidade
- Esta área do painel mostra o número de ocorrências de conteúdo ofensivo ao longo do tempo pelas habilidades nas quais o conteúdo foi detectado.
Figura 6. Ocorrências de conteúdo ofensivo por indicador de habilidade
Indicadores de injeção de prompt
- Latência adicionada ao guardrail
- Esta área do painel mostra a latência média como resultado da proteção de injeção de prompt ativa para as habilidades e o intervalo de datas selecionados.
Figura 7. Indicador de latência adicionado ao guardrail - Percentual sinalizado como injeção de prompt
- Esta área do painel mostra a porcentagem de solicitações e respostas de e para o serviço LLM que são sinalizadas quanto a conteúdo ofensivo.
Figura 8. Percentual sinalizado como indicador de injeção de prompt - Total de ocorrências de injeção de prompt
- Esta área do painel mostra o número total de ocorrências de conteúdo ofensivo para as habilidades e o intervalo de datas selecionados.
Figura 9. Indicador de total de ocorrências de injeção de prompt - Ocorrências de injeção de aviso por habilidade
- Esta área do painel mostra o número de ocorrências de injeção de prompt ao longo do tempo pelas habilidades em que as tentativas de injeção de prompt foram detectadas.
Figura 10. Ocorrências de injeção de aviso por indicador de habilidade