Gardien Now Assist

Yokohama : activer l’IA

Release

yokohama

ft:locale

fr-FR

ft:publication_title

Yokohama : activer l’IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Gardien Now Assist

Rversion finale: Yokohama

Mis à jour 30 janv. 2025

12 minutes de lecture

Activez Gardien Now Assist, construit avec Llama 3.1, pour surveiller et évaluer le contenu créé avec l’IA générative pour aider à protéger et à améliorer l’expérience utilisateur.

Vue d’ensemble du Gardien Now Assist

L’IA générative est une technologie émergente. Les interactions humaines sont imprévisibles et les résultats générés par les grands modèles de langage (LLM) sont probabilistes, ce qui signifie qu’ils sont basés sur des probabilités. L’exécution deux fois de la même entrée peut générer deux sorties différentes. La gestion des risques est un élément important pour décider comment vous souhaitez implémenter l’IA générative sur vos instances.

Le Gardien Now Assist surveille les demandes envoyées aux LLM et leurs réponses pour vous protéger, ainsi que vos utilisateurs et vos données. Trois types de contenu sont surveillés : le contenu offensant ou préjudiciable, les tentatives d’injection d’invite et les sujets filtrés. Pour les tentatives d’injection de contenu offensant et d’invite, les journaux sont générés s’ils sont activés, mais vous pouvez également choisir de bloquer le contenu. Lorsqu’un filtre a été activé, le contenu détecté auquel le filtre s’applique redirige l’utilisateur vers la rubrique Détection de sensibilité : secours dans Agent virtuel.

Garde-corps

Contenu offensant: En raison de la nature probabiliste de l’IA générative, il est possible pour un LLM de générer du contenu offensant. S’il y a du contenu offensant dans l’entrée de la demande, du contenu offensant peut également se produire dans la réponse. Les exemples de contenu offensant incluent le langage toxique, diffamatoire ou frauduleux.
Injection d’invite: L’injection d’invite est un type d’attaque de sécurité dans lequel des acteurs malveillants passent outre les instructions normales d’un LLM pour accéder à des informations restreintes ou provoquer des comportements inattendus. La détection de l’injection d’invite est basée sur le LLM qui a été entraîné sur divers types de techniques d’injection d’invite telles que les jeux de rôle, la paraphrase, la répétition, les instructions d’ignorer d’autres instructions, la persuasion, etc. Toutefois, en raison de la nature probabiliste du modèle et de l’évolution des techniques d’injection d’invite, il se peut que les tentatives d’injection d’invite ne soient pas identifiées par le Gardien Now Assist dans certains cas.
Sujets filtrés: Certains sujets, tels que la sécurité au travail ou la rémunération des employés, peuvent ne pas être les mieux adaptés aux conversations sur l’IA générative. Vous pouvez activer des filtres qui détectent si ces types de sujets sont inclus dans la conversation afin de rediriger l’utilisateur vers la rubrique Détection de sensibilité : secours Agent virtuel .

Journalisation et blocage

Le Gardien Now Assist peut surveiller les demandes et peut enregistrer lorsque ce type de matériel est détecté. Vous pouvez accéder aux journaux à partir de la console d’administration Now Assist dans la page Gardien Now Assist de l’onglet Paramètres. Les données incluses dans les journaux comprennent des informations sur la demande et la conversation qui contient le contenu offensant, y compris les commentaires des utilisateurs.

Outre la journalisation, vous pouvez également choisir de bloquer le contenu offensant ou les tentatives d’injection d’invite. Si le matériau est détecté et que le blocage est activé, un message d’erreur standard s’affiche au lieu de la réponse générée. Le message est un message d’erreur standard indiquant que la demande n’a pas pu être terminée et que vous ne voyez pas ce que l’IA a généré.

Avant de décider de bloquer du contenu, vous pouvez surveiller les journaux pendant un certain temps pour déterminer la prévalence de ces problèmes pour vous et vos cas d’utilisation.

Redirection pour les rubriques filtrées sensibles

Une fois qu’une rubrique à laquelle un filtre s’applique a été identifiée, l’utilisateur est redirigé vers une rubrique différente Agent virtuel , en fonction du type de filtre. Les filtres pour des sujets tels que les problèmes personnels des employés redirigent vers la rubrique Détection de sensibilité : secours. Cette rubrique peut rediriger un utilisateur vers un agent actif ou l’aider à créer un ticket RH.

Gardien Now Assist lors de l’exécution

Toutes les compétences qui utilisent le Gardien Now Assist suppriment les informations d’identification personnelle (PII) avant que la demande n’atteigne le LLM. Vous pouvez choisir quels types de données sont interceptés. Consultez Configuration de Now Assist pour la confidentialité des données pour plus d’informations.

Pour les compétences conversationnelles, la recherche sémantique traite les demandes pour déterminer si un filtre a été détecté. Si tel est le cas, l’utilisateur est redirigé vers une Agent virtuel rubrique qui lui demande s’il souhaite créer un ticket RH ou parler à un agent actif.

Infographie montrant le Gardien Now Assist au moment de l’exécution avec le garde-fou du filtre de sensibilité

Pour la génération d’éléments de catalogue et les compétences des agents telles que la synthèse et la génération de notes de résolution, le caractère offensant et l’injection d’invite, des garde-fous sont exécutés sur les entrées et les sorties des demandes. Si l’un ou l’autre est détecté, le Gardien Now Assist consigne la demande. Si vous avez choisi de bloquer ce contenu, un message d’erreur standard s’affiche et l’utilisateur ne voit pas le résultat de la demande.

Infographie montrant le Gardien Now Assist en cours d’exécution avec caractère offensant et garde-fous de sécurité

Catégories de sécurité

Voici les différents types de contenu qui peuvent être signalés comme offensants ou présenter un risque pour la sécurité. Vous pouvez identifier les catégories interceptées dans les journaux des Gardiens Now Assist pour les différents garde-fous.
Catégorie	ID de catégorie	Description
Contenu toxique	O1	Ne doit pas : Promouvoir des discours haineux, inciter à la violence comme la maltraitance des enfants ou l’intimidation ou se livrer à des attaques personnelles ou au harcèlement. Peut : Discuter des impacts et des problèmes sociétaux liés au contenu toxique à des fins éducatives.
Représentation injuste	O2	Ne doit pas : Aider à perpétuer des stéréotypes ou encourager la discrimination ou les préjugés. Peut : Discuter des questions de représentation et promouvoir la sensibilisation et l’inclusion.
Contenu pour adultes	O3	Ne doit pas : Afficher du matériel sexuellement explicite ou du contenu inapproprié pour les mineurs, y compris la pornographie, le chat érotique et l’activité sexuelle. Peut : Offrir des discussions éducatives sur des sujets liés à la sexualité et au consentement.
Érosion de la confiance dans les informations publiques	O4	Ne doit pas : Diffuser de la désinformation ou de la désinformation sapant la confiance du public, comme des conseils médicaux trompeurs, des drogues illégales et des conseils. Peut : Analyser de manière critique les tendances de la désinformation et éduquer sur l’éducation aux médias.
Propagation d'idées fausses/de fausses croyances	O5	Ne doit pas : diffuser des informations non vérifiées et trompeuses, des théories du complot, du négationnisme scientifique, du révisionnisme historique ou du contenu susceptible de conduire à la radicalisation. Peut : Fournir une analyse critique et démystifier les idées fausses et les fausses croyances courantes.
Pratiques financières risquées	O6	Ne doit pas : Promouvoir des pratiques commerciales contraires à l’éthique telles que le marketing à plusieurs niveaux, les pratiques de prêt trompeuses ou les jeux d’argent. Peut : Éduquer sur les risques associés, les prêts éthiques, le jeu responsable, la conformité commerciale et les pratiques commerciales équitables.
Commerce et conformité	O7	Ne doit pas : Impliquer des questions de travail, s’engager dans des affaires commerciales contraires à l’éthique, contribuer à des pratiques de travail déloyales ou promouvoir des pratiques commerciales frauduleuses. Peut : Fournir des informations et des idées sur les questions de travail, les pratiques commerciales éthiques, la conformité commerciale et la conduite équitable des affaires.
Diffusion d'informations dangereuses	O8	Ne doit pas : diffuser de fausses nouvelles, propager des rumeurs sur les réseaux sociaux, divulguer des secrets gouvernementaux ou divulguer des données financières et d’autres contenus qui contribuent à la panique publique ou à la sécurité nationale. Peut : Éduquer sur les dangers de ces informations et promouvoir la sécurité.
Atteinte à la vie privée	O9	Ne doit pas : Impliquer le doxxing, le partage de données non autorisé ou la surveillance comme l’inférence ou la fuite d’informations privées. Can : Discutez de l’importance du droit à la vie privée et de la sécurité numérique.
Menaces à la sécurité	O10	Ne doit pas : Diffuser des logiciels malveillants ou encourager le terrorisme ou d’autres menaces à la sécurité telles que la production d’armes, les cyberattaques ou les dommages chimiques. Peut : Fournir des informations et des méthodes pour identifier et atténuer les menaces de sécurité.
Diffamation	O11	Ne doit pas : Publier de fausses déclarations préjudiciables à des personnes, des groupes ou des organisations. Can : Explorer les aspects juridiques et éthiques de la diffamation et de la liberté d’expression.
Fraude ou action trompeuse	O12	Ne doit pas : Se livrer à la malhonnêteté académique, commettre des escroqueries, promouvoir des pseudo-produits pharmaceutiques ou diffuser de faux contenus en ligne. Le contenu ne doit pas tromper ou escroquer les individus. Peut : Éduquer sur la reconnaissance et la prévention des activités frauduleuses.
Opérations d'influence	O13	Ne doit pas : manipuler l’opinion publique ou perturber l’harmonie de la société à des fins politiques ou idéologiques comme la surveillance ou la campagne. Peut : Analyser et éduquer sur la nature et l’impact des opérations d’influence.
Activités illégales	O14	Ne doit pas : promouvoir ou fournir des conseils sur la participation à des actions illégales telles que des crimes ou le terrorisme. Peut : Éduquer sur les conséquences et la prévention des activités illégales.
Persuasion et manipulation	O15	Ne doit pas : Impliquer des techniques de persuasion ou de manipulation qui favorisent l’automutilation, la manipulation psychologique ou toute forme de préjudice au bien-être des individus. Peut : Éduquer sur la reconnaissance et la résistance à la manipulation, offrir du soutien et des ressources aux personnes touchées.
Violation de la propriété personnelle	O16	Ne doit pas : Violer la propriété personnelle d’un individu, impliquant l’imitation malveillante, le plagiat, la violation du droit d’auteur et la falsification de l’identité. Peut : Promouvoir la sensibilisation et les discussions sur le respect des biens personnels et la prévention de telles violations.

Compétences qui prennent en charge le Gardien Now Assist

Tableau 1. Compétences prises en charge par workflow
Workflow	Compétences prises en charge par produit
Technologie	Now Assist for Configuration Management Database (CMDB) Synthèse des éléments de configuration (CI) Gérer les éléments de configuration (CI) en double Now Assist for IT Operations Management (ITOM) Analyse d'alerte Enquêtes sur les alertes Now Assist for IT Service Management (ITSM) Explication du risque de la demande de changement Synthèse des demandes de changement Recommandation de messagerie instantanée Synthèse de la messagerie instantanée Assistant d’incident Synthèse des incidents Génération de la base de connaissances Génération de notes de résolution Barre latérale Résumé Now Assist for Security Incident Response Analyse post-incident Actions recommandées en cas d’incident de sécurité Synthèse des incidents de sécurité Génération de notes de résolution Diagnostiquer un Connecteur du graphe de services Now Assist for Strategic Portfolio Management (SPM) Résumé du projet par e-mail Synthèse des commentaires Synthèse de plusieurs commentaires Documentation de l’IA générative du projet Élément de planification Documentation sur l’IA générative Équipes EAP Documentation sur l’IA générative
Client	Now Assist for Customer Service Management (CSM) Synthèse du ticket Recommandation de messagerie instantanée Synthèse de la messagerie instantanée Recommandation par e-mail Génération de la base de connaissances Génération de notes de résolution Barre latérale Résumé Synthèse des appels vocaux Now Assist for Field Service Management (FSM) Génération de la base de connaissances Barre latérale Résumé Synthèse de la fermeture des tâches de commande de travaux Now Assist for Financial Services Operations (FSO) Synthèse du ticket de réclamation Synthèse du ticket de litige Now Assist for PSDS Synthèse de la messagerie instantanée Synthèse des tickets gouvernementaux Génération de notes de résolution
Employé	Now Assist for Health and Safety Synthèse des incidents Health and Safety Now Assist for HR Service Delivery (HRSD) Synthèse de la messagerie instantanée Synthèse du ticket Génération de la base de connaissances Génération de notes de résolution Now Assist for Legal Service Delivery (LSD) Synthèse des questions juridiques Synthèse de la demande juridique Compétences pour Now Assist in Contract Management: Analyse du contrat Extraction des métadonnées du contrat
Créateur	Now Assist for Creator Génération d’éléments de catalogue
Finances et chaîne d'approvisionnement	Now Assist for Accounts Payable Operations (APO) Synthèse du ticket de facture Now Assist for Supplier Lifecycle Operations (SLO) Synthèse des tickets de fournisseur Now Assist for Sourcing and Procurement Operations (SPO) Synthèse des prestataires pour Sourcing and Procurement Operations

Gardien Now Assist analytique

Surveillez les performances des garde-fous activés via Gardien Now Assist.

Le Gardien Now Assist tableau de bord d’analyse aide les administrateurs à surveiller et à évaluer l’efficacité du contenu offensant et des garde-fous d’injection d’invite dans le suivi et l’analyse des demandes envoyées aux grands modèles de langage (LLM) et de leurs réponses.

Page du tableau de bord d’injection d’invite — Figure 1. Gardien Now Assist page du tableau de bord

Les indicateurs sur la page de Gardien Now Assist tableau de bord fournissent les informations suivantes.

Latence moyenne résultant du contenu offensant actif et des garde-fous d’injection d’invite. Une latence élevée pourrait signifier une augmentation de l’activité des garde-fous au cours de la période.
Nombre et pourcentage d’occurrences de contenu offensant et d’injection d’invite.
Compétences pour lesquelles des occurrences de contenu offensant et d’injection d’invite ont été détectées.

Appliquez les filtres sur le tableau de bord pour afficher l’activité du garde-fou pour les compétences dans une plage de dates. Pour plus d’informations sur les données et les calculs qui sous-tendent chaque indicateur, reportez-vous à la section Analyses Now Assist Détails de l’indicateur du tableau de bord .

Indicateurs de contenu offensant

Latence ajoutée par GuardRail: Cette zone du tableau de bord affiche la latence moyenne résultant du garde-fou de contenu offensant actif pour les compétences et la plage de dates sélectionnées.

Figure 2. Indicateur de latence ajouté par Garde-fou
Pourcentage marqué comme offensant: Cette zone du tableau de bord affiche le pourcentage de demandes et de réponses à destination et en provenance du service LLM qui sont marquées comme contenu offensant.

Figure 3. Pourcentage marqué comme indicateur offensant
Total des occurrences de contenu offensant: Cette zone du tableau de bord affiche le nombre total d’occurrences de contenu offensant pour les compétences et la plage de dates sélectionnées.

Figure 4. Indicateur total d’occurrences de contenu offensant
Catégories de contenu offensant: Cette zone du tableau de bord affiche une répartition des occurrences de contenu offensant par catégories. Si le contenu est considéré comme offensant dans plus d’une catégorie, par exemple, toxique et diffamatoire, l’occurrence est comptabilisée individuellement dans les deux catégories. Pour en savoir plus sur les catégories de contenu offensant, reportez-vous à la section Gardien Now Assist.

Figure 5. Catégories d’indicateurs de contenu offensant
Occurrences de contenu offensant par compétence: Cette zone du tableau de bord affiche le nombre d’occurrences de contenu offensant au fil du temps selon les compétences dans lesquelles le contenu est détecté.

Figure 6. Occurrences de contenu offensant par indicateur de compétence

Indicateurs d’injection d’invite

Latence ajoutée par GuardRail: Cette zone du tableau de bord affiche la latence moyenne résultant du garde-fou d’injection d’invite active pour les compétences et la plage de dates sélectionnées.

Figure 7. Indicateur de latence ajouté par Garde-fou
Pourcentage marqué comme injection d’invite: Cette zone du tableau de bord affiche le pourcentage de demandes et de réponses à destination et en provenance du service LLM qui sont marquées comme contenu offensant.

Figure 8. Pourcentage marqué comme indicateur d’injection d’invite
Nombre total d’occurrences de l’injection d’invite: Cette zone du tableau de bord affiche le nombre total d’occurrences de contenu offensant pour les compétences et la plage de dates sélectionnées.

Figure 9. Indicateur du nombre total d’occurrences d’injection d’invite
Occurrences de l’injection d’invite par compétence: Cette zone du tableau de bord affiche le nombre d’occurrences d’injection d’invite au fil du temps par les compétences pour lesquelles des tentatives d’injection d’invite ont été détectées.

Figure 10. Occurrences d’injection d’invite par indicateur de compétence