Gardien Now Assist

  • Rversion finale: Yokohama
  • Mis à jour 30 janv. 2025
  • 12 minutes de lecture
  • Activez Gardien Now Assist, construit avec Llama 3.1, pour surveiller et évaluer le contenu créé avec l’IA générative pour aider à protéger et à améliorer l’expérience utilisateur.

    Vue d’ensemble du Gardien Now Assist

    L’IA générative est une technologie émergente. Les interactions humaines sont imprévisibles et les résultats générés par les grands modèles de langage (LLM) sont probabilistes, ce qui signifie qu’ils sont basés sur des probabilités. L’exécution deux fois de la même entrée peut générer deux sorties différentes. La gestion des risques est un élément important pour décider comment vous souhaitez implémenter l’IA générative sur vos instances.

    Le Gardien Now Assist surveille les demandes envoyées aux LLM et leurs réponses pour vous protéger, ainsi que vos utilisateurs et vos données. Trois types de contenu sont surveillés : le contenu offensant ou préjudiciable, les tentatives d’injection d’invite et les sujets filtrés. Pour les tentatives d’injection de contenu offensant et d’invite, les journaux sont générés s’ils sont activés, mais vous pouvez également choisir de bloquer le contenu. Lorsqu’un filtre a été activé, le contenu détecté auquel le filtre s’applique redirige l’utilisateur vers la rubrique Détection de sensibilité : secours dans Agent virtuel.

    Garde-corps

    Contenu offensant
    En raison de la nature probabiliste de l’IA générative, il est possible pour un LLM de générer du contenu offensant. S’il y a du contenu offensant dans l’entrée de la demande, du contenu offensant peut également se produire dans la réponse. Les exemples de contenu offensant incluent le langage toxique, diffamatoire ou frauduleux.
    Injection d’invite
    L’injection d’invite est un type d’attaque de sécurité dans lequel des acteurs malveillants passent outre les instructions normales d’un LLM pour accéder à des informations restreintes ou provoquer des comportements inattendus. La détection de l’injection d’invite est basée sur le LLM qui a été entraîné sur divers types de techniques d’injection d’invite telles que les jeux de rôle, la paraphrase, la répétition, les instructions d’ignorer d’autres instructions, la persuasion, etc. Toutefois, en raison de la nature probabiliste du modèle et de l’évolution des techniques d’injection d’invite, il se peut que les tentatives d’injection d’invite ne soient pas identifiées par le Gardien Now Assist dans certains cas.
    Sujets filtrés
    Certains sujets, tels que la sécurité au travail ou la rémunération des employés, peuvent ne pas être les mieux adaptés aux conversations sur l’IA générative. Vous pouvez activer des filtres qui détectent si ces types de sujets sont inclus dans la conversation afin de rediriger l’utilisateur vers la rubrique Détection de sensibilité : secours Agent virtuel .

    Journalisation et blocage

    Le Gardien Now Assist peut surveiller les demandes et peut enregistrer lorsque ce type de matériel est détecté. Vous pouvez accéder aux journaux à partir de la console d’administration Now Assist dans la page Gardien Now Assist de l’onglet Paramètres. Les données incluses dans les journaux comprennent des informations sur la demande et la conversation qui contient le contenu offensant, y compris les commentaires des utilisateurs.

    Outre la journalisation, vous pouvez également choisir de bloquer le contenu offensant ou les tentatives d’injection d’invite. Si le matériau est détecté et que le blocage est activé, un message d’erreur standard s’affiche au lieu de la réponse générée. Le message est un message d’erreur standard indiquant que la demande n’a pas pu être terminée et que vous ne voyez pas ce que l’IA a généré.

    Avant de décider de bloquer du contenu, vous pouvez surveiller les journaux pendant un certain temps pour déterminer la prévalence de ces problèmes pour vous et vos cas d’utilisation.

    Redirection pour les rubriques filtrées sensibles

    Une fois qu’une rubrique à laquelle un filtre s’applique a été identifiée, l’utilisateur est redirigé vers une rubrique différente Agent virtuel , en fonction du type de filtre. Les filtres pour des sujets tels que les problèmes personnels des employés redirigent vers la rubrique Détection de sensibilité : secours. Cette rubrique peut rediriger un utilisateur vers un agent actif ou l’aider à créer un ticket RH.

    Gardien Now Assist lors de l’exécution

    Toutes les compétences qui utilisent le Gardien Now Assist suppriment les informations d’identification personnelle (PII) avant que la demande n’atteigne le LLM. Vous pouvez choisir quels types de données sont interceptés. Consultez Configuration de Now Assist pour la confidentialité des données pour plus d’informations.

    Pour les compétences conversationnelles, la recherche sémantique traite les demandes pour déterminer si un filtre a été détecté. Si tel est le cas, l’utilisateur est redirigé vers une Agent virtuel rubrique qui lui demande s’il souhaite créer un ticket RH ou parler à un agent actif.

    Infographie montrant le Gardien Now Assist au moment de l’exécution avec le garde-fou du filtre de sensibilité

    Pour la génération d’éléments de catalogue et les compétences des agents telles que la synthèse et la génération de notes de résolution, le caractère offensant et l’injection d’invite, des garde-fous sont exécutés sur les entrées et les sorties des demandes. Si l’un ou l’autre est détecté, le Gardien Now Assist consigne la demande. Si vous avez choisi de bloquer ce contenu, un message d’erreur standard s’affiche et l’utilisateur ne voit pas le résultat de la demande.

    Infographie montrant le Gardien Now Assist en cours d’exécution avec caractère offensant et garde-fous de sécurité

    Catégories de sécurité

    Voici les différents types de contenu qui peuvent être signalés comme offensants ou présenter un risque pour la sécurité. Vous pouvez identifier les catégories interceptées dans les journaux des Gardiens Now Assist pour les différents garde-fous.

    Catégorie

    ID de catégorie

    Description

    Contenu toxique

    O1

    Ne doit pas : Promouvoir des discours haineux, inciter à la violence comme la maltraitance des enfants ou l’intimidation ou se livrer à des attaques personnelles ou au harcèlement.

    Peut : Discuter des impacts et des problèmes sociétaux liés au contenu toxique à des fins éducatives.

    Représentation injuste

    O2

    Ne doit pas : Aider à perpétuer des stéréotypes ou encourager la discrimination ou les préjugés.

    Peut : Discuter des questions de représentation et promouvoir la sensibilisation et l’inclusion.

    Contenu pour adultes

    O3

    Ne doit pas : Afficher du matériel sexuellement explicite ou du contenu inapproprié pour les mineurs, y compris la pornographie, le chat érotique et l’activité sexuelle.

    Peut : Offrir des discussions éducatives sur des sujets liés à la sexualité et au consentement.

    Érosion de la confiance dans les informations publiques

    O4

    Ne doit pas : Diffuser de la désinformation ou de la désinformation sapant la confiance du public, comme des conseils médicaux trompeurs, des drogues illégales et des conseils.

    Peut : Analyser de manière critique les tendances de la désinformation et éduquer sur l’éducation aux médias.

    Propagation d'idées fausses/de fausses croyances

    O5

    Ne doit pas : diffuser des informations non vérifiées et trompeuses, des théories du complot, du négationnisme scientifique, du révisionnisme historique ou du contenu susceptible de conduire à la radicalisation.

    Peut : Fournir une analyse critique et démystifier les idées fausses et les fausses croyances courantes.

    Pratiques financières risquées

    O6

    Ne doit pas : Promouvoir des pratiques commerciales contraires à l’éthique telles que le marketing à plusieurs niveaux, les pratiques de prêt trompeuses ou les jeux d’argent.

    Peut : Éduquer sur les risques associés, les prêts éthiques, le jeu responsable, la conformité commerciale et les pratiques commerciales équitables.

    Commerce et conformité

    O7

    Ne doit pas : Impliquer des questions de travail, s’engager dans des affaires commerciales contraires à l’éthique, contribuer à des pratiques de travail déloyales ou promouvoir des pratiques commerciales frauduleuses.

    Peut : Fournir des informations et des idées sur les questions de travail, les pratiques commerciales éthiques, la conformité commerciale et la conduite équitable des affaires.

    Diffusion d'informations dangereuses

    O8

    Ne doit pas : diffuser de fausses nouvelles, propager des rumeurs sur les réseaux sociaux, divulguer des secrets gouvernementaux ou divulguer des données financières et d’autres contenus qui contribuent à la panique publique ou à la sécurité nationale.

    Peut : Éduquer sur les dangers de ces informations et promouvoir la sécurité.

    Atteinte à la vie privée

    O9

    Ne doit pas : Impliquer le doxxing, le partage de données non autorisé ou la surveillance comme l’inférence ou la fuite d’informations privées.

    Can : Discutez de l’importance du droit à la vie privée et de la sécurité numérique.

    Menaces à la sécurité

    O10

    Ne doit pas : Diffuser des logiciels malveillants ou encourager le terrorisme ou d’autres menaces à la sécurité telles que la production d’armes, les cyberattaques ou les dommages chimiques.

    Peut : Fournir des informations et des méthodes pour identifier et atténuer les menaces de sécurité.

    Diffamation

    O11

    Ne doit pas : Publier de fausses déclarations préjudiciables à des personnes, des groupes ou des organisations.

    Can : Explorer les aspects juridiques et éthiques de la diffamation et de la liberté d’expression.

    Fraude ou action trompeuse

    O12

    Ne doit pas : Se livrer à la malhonnêteté académique, commettre des escroqueries, promouvoir des pseudo-produits pharmaceutiques ou diffuser de faux contenus en ligne. Le contenu ne doit pas tromper ou escroquer les individus.

    Peut : Éduquer sur la reconnaissance et la prévention des activités frauduleuses.

    Opérations d'influence

    O13

    Ne doit pas : manipuler l’opinion publique ou perturber l’harmonie de la société à des fins politiques ou idéologiques comme la surveillance ou la campagne.

    Peut : Analyser et éduquer sur la nature et l’impact des opérations d’influence.

    Activités illégales

    O14

    Ne doit pas : promouvoir ou fournir des conseils sur la participation à des actions illégales telles que des crimes ou le terrorisme.

    Peut : Éduquer sur les conséquences et la prévention des activités illégales.

    Persuasion et manipulation

    O15

    Ne doit pas : Impliquer des techniques de persuasion ou de manipulation qui favorisent l’automutilation, la manipulation psychologique ou toute forme de préjudice au bien-être des individus.

    Peut : Éduquer sur la reconnaissance et la résistance à la manipulation, offrir du soutien et des ressources aux personnes touchées.

    Violation de la propriété personnelle

    O16

    Ne doit pas : Violer la propriété personnelle d’un individu, impliquant l’imitation malveillante, le plagiat, la violation du droit d’auteur et la falsification de l’identité.

    Peut : Promouvoir la sensibilisation et les discussions sur le respect des biens personnels et la prévention de telles violations.

    Compétences qui prennent en charge le Gardien Now Assist

    Tableau 1. Compétences prises en charge par workflow
    Workflow Compétences prises en charge par produit
    Technologie
    Now Assist for Configuration Management Database (CMDB)
    Now Assist for IT Operations Management (ITOM)
    Now Assist for IT Service Management (ITSM)
    Now Assist for Security Incident Response
    Diagnostiquer un Connecteur du graphe de services
    Now Assist for Strategic Portfolio Management (SPM)
    Client
    Now Assist for Customer Service Management (CSM)
    Now Assist for Field Service Management (FSM)
    Now Assist for Financial Services Operations (FSO)
    Now Assist for PSDS
    Employé
    Now Assist for Health and Safety
    Synthèse des incidents Health and Safety
    Now Assist for HR Service Delivery (HRSD)
    Now Assist for Legal Service Delivery (LSD)
    Synthèse des questions juridiques
    Synthèse de la demande juridique
    Compétences pour Now Assist in Contract Management:
    Créateur
    Now Assist for Creator
    Génération d’éléments de catalogue
    Finances et chaîne d'approvisionnement
    Now Assist for Accounts Payable Operations (APO)
    Synthèse du ticket de facture
    Now Assist for Supplier Lifecycle Operations (SLO)
    Synthèse des tickets de fournisseur
    Now Assist for Sourcing and Procurement Operations (SPO)
    Synthèse des prestataires pour Sourcing and Procurement Operations

    Gardien Now Assist analytique

    Surveillez les performances des garde-fous activés via Gardien Now Assist.

    Le Gardien Now Assist tableau de bord d’analyse aide les administrateurs à surveiller et à évaluer l’efficacité du contenu offensant et des garde-fous d’injection d’invite dans le suivi et l’analyse des demandes envoyées aux grands modèles de langage (LLM) et de leurs réponses.

    Figure 1. Gardien Now Assist page du tableau de bord
    Page du tableau de bord d’injection d’invite
    Les indicateurs sur la page de Gardien Now Assist tableau de bord fournissent les informations suivantes.
    • Latence moyenne résultant du contenu offensant actif et des garde-fous d’injection d’invite. Une latence élevée pourrait signifier une augmentation de l’activité des garde-fous au cours de la période.
    • Nombre et pourcentage d’occurrences de contenu offensant et d’injection d’invite.
    • Compétences pour lesquelles des occurrences de contenu offensant et d’injection d’invite ont été détectées.

    Appliquez les filtres sur le tableau de bord pour afficher l’activité du garde-fou pour les compétences dans une plage de dates. Pour plus d’informations sur les données et les calculs qui sous-tendent chaque indicateur, reportez-vous à la section Analyses Now Assist Détails de l’indicateur du tableau de bord .

    Indicateurs de contenu offensant

    Latence ajoutée par GuardRail
    Cette zone du tableau de bord affiche la latence moyenne résultant du garde-fou de contenu offensant actif pour les compétences et la plage de dates sélectionnées.
    Figure 2. Indicateur de latence ajouté par Garde-fou
    Latence du garde-fou pour l’injection d’invite.
    Pourcentage marqué comme offensant
    Cette zone du tableau de bord affiche le pourcentage de demandes et de réponses à destination et en provenance du service LLM qui sont marquées comme contenu offensant.
    Figure 3. Pourcentage marqué comme indicateur offensant
    Pourcentage d’occurrences de contenu offensant.
    Total des occurrences de contenu offensant
    Cette zone du tableau de bord affiche le nombre total d’occurrences de contenu offensant pour les compétences et la plage de dates sélectionnées.
    Figure 4. Indicateur total d’occurrences de contenu offensant
    Total des occurrences de contenu offensant.
    Catégories de contenu offensant
    Cette zone du tableau de bord affiche une répartition des occurrences de contenu offensant par catégories. Si le contenu est considéré comme offensant dans plus d’une catégorie, par exemple, toxique et diffamatoire, l’occurrence est comptabilisée individuellement dans les deux catégories. Pour en savoir plus sur les catégories de contenu offensant, reportez-vous à la section Gardien Now Assist.
    Figure 5. Catégories d’indicateurs de contenu offensant
    Indicateurs de catégories de contenu offensant.
    Occurrences de contenu offensant par compétence
    Cette zone du tableau de bord affiche le nombre d’occurrences de contenu offensant au fil du temps selon les compétences dans lesquelles le contenu est détecté.
    Figure 6. Occurrences de contenu offensant par indicateur de compétence
    Occurrences de contenu offensant par compétence.

    Indicateurs d’injection d’invite

    Latence ajoutée par GuardRail
    Cette zone du tableau de bord affiche la latence moyenne résultant du garde-fou d’injection d’invite active pour les compétences et la plage de dates sélectionnées.
    Figure 7. Indicateur de latence ajouté par Garde-fou
    Indicateur de latence ajouté au garde-fou.
    Pourcentage marqué comme injection d’invite
    Cette zone du tableau de bord affiche le pourcentage de demandes et de réponses à destination et en provenance du service LLM qui sont marquées comme contenu offensant.
    Figure 8. Pourcentage marqué comme indicateur d’injection d’invite
    Pourcentage marqué comme indicateur d’injection d’invite.
    Nombre total d’occurrences de l’injection d’invite
    Cette zone du tableau de bord affiche le nombre total d’occurrences de contenu offensant pour les compétences et la plage de dates sélectionnées.
    Figure 9. Indicateur du nombre total d’occurrences d’injection d’invite
    Nombre total d’occurrences de l’injection d’invite
    Occurrences de l’injection d’invite par compétence
    Cette zone du tableau de bord affiche le nombre d’occurrences d’injection d’invite au fil du temps par les compétences pour lesquelles des tentatives d’injection d’invite ont été détectées.
    Figure 10. Occurrences d’injection d’invite par indicateur de compétence
    Occurrences d’injection d’invite par indicateur de compétence.