Now Assist Guardian

  • Freigeben Version: Yokohama
  • Aktualisiert 30. Januar 2025
  • 9 Minuten Lesedauer
  • Aktivieren Sie Now Assist Guardian, erstellt mit Llama 3.1, um mit generativer KI erstellte Inhalte zu überwachen und zu bewerten, um die Anwender-Experience zu schützen und zu verbessern.

    Übersicht über Now Assist Vormund

    Generative KI ist eine aufstrebende Technologie. Menschliche Interaktionen sind unvorhersehbar, und Ausgaben, die von großen Sprachmodellen (LLMs) generiert werden, sind probabilitybasiert, was bedeutet, dass sie auf Wahrscheinlichkeiten basieren. Wenn Sie dieselbe Eingabe zweimal ausführen, können zwei verschiedene Ausgaben generiert werden. Das Risikomanagement ist ein wichtiges Element bei der Entscheidung, wie Sie Generative AI in Ihren Instanzen implementieren möchten.

    Now Assist Trust überwacht an LLMs gesendete Anforderungen und deren Antworten, um Sie, Ihre Anwender und Ihre Daten zu schützen. Es gibt drei Arten von Inhalten, auf die überwacht wird: anstößige oder schädliche Inhalte, Versuche zur Eingabeaufforderung und gefilterte Betreffe. Für anstößige Inhalte und Eingabeaufforderungseinschleusungsversuche werden Protokolle generiert, wenn diese Option aktiviert ist. Sie können den Inhalt jedoch auch blockieren. Wenn ein Filter aktiviert wurde, leiten erkannte Inhalte, für die der Filter gilt, den Benutzer zum Thema Vertraulichkeitserkennung: Fallback in Virtual Agentweiter.

    Schutzmaßnahmen

    Anstößiger Inhalt
    Aufgrund des Wahrscheinlichkeitsprinzips von Generative AI ist es für ein LLM möglich, anstößige Inhalte zu generieren. Wenn die Eingabe der Anforderung anstößige Inhalte enthält, können anstößige Inhalte auch in der Antwort vorkommen. Beispiele für anstößige Inhalte sind schädliche, verleumderische oder betrügerische Formulierungen.
    Aufforderungsinjektion
    Die Eingabeaufforderungsinjektion ist eine Art von Sicherheitsangriff, bei der böswillige Akteure die normalen Anweisungen eines LLM außer Kraft setzen, um auf eingeschränkte Informationen zuzugreifen oder unerwartetes Verhalten hervorzurufen. Die Erkennung der Aufforderungsinjektion basiert auf dem LLM, das für verschiedene Arten von Aufforderungsinjektionstechniken trainiert wurde, z. B. Rollenspiele, Paraphrasen, Wiederholungen, Anweisungen zum Ignorieren anderer Anweisungen, Überredung usw. Aufgrund der Wahrscheinlichkeitsbeschaffenheit des Modells sowie der sich entwickelnden Aufforderungsinjektionstechniken können jedoch Aufforderungsinjektionsversuche in einigen Fällen von Now Assist Guard nicht identifiziert werden.
    Gefilterte Betreffe
    Bestimmte Themen, wie z. B. Sicherheit am Arbeitsplatz oder Mitarbeitervergütung, eignen sich möglicherweise nicht für Konversationen über generative KI. Sie können Filter aktivieren, die erkennen, ob diese Arten von Betreffs in der Konversation enthalten sind, um den Benutzer zum Thema „Vertraulichkeitserkennung: Fallback Virtual Agent “ weiterzuleiten.

    Protokollierung und Blockierung

    Now Assist Bucket kann Anforderungen überwachen und protokollieren, wenn diese Arten von Material erkannt werden. Sie können auf Protokolle über die Now Assist-Administratorkonsole auf der Seite „Now Assist-Beschützer“ der Registerkarte „Einstellungen“ zugreifen. Zu den in den Protokollen enthaltenen Daten gehören Informationen zur Anforderung und zur Konversation, die den anstößigen Inhalt enthält, einschließlich Benutzerfeedback.

    Neben der Protokollierung können Sie auch anstößige Inhalte blockieren oder Eingabeaufforderungsversuche durchführen. Wenn das Material erkannt wird und die Blockierung aktiviert ist, wird anstelle der generierten Antwort eine Standardfehlermeldung angezeigt. Die Nachricht ist eine Standardfehlermeldung, die angibt, dass die Anforderung nicht abgeschlossen werden konnte. Sie sehen nicht, was die KI generiert hat.

    Bevor Sie sich entscheiden, Inhalte zu blockieren, können Sie die Protokolle einige Zeit lang überwachen, um festzustellen, wie häufig diese Probleme für Sie und Ihre Anwendungsfälle auftreten.

    Weiterleitung für vertrauliche gefilterte Themen

    Sobald ein Thema identifiziert wurde, für das ein Filter gilt, wird der Benutzer zu einem anderen Virtual Agent -Thema weitergeleitet, abhängig vom Filtertyp. Filter für Themen wie „Personalprobleme von Mitarbeitern“ leiten zum Thema „Vertraulichkeitserkennung: Fallback“ weiter. Dieses Thema kann einen Benutzer an einen Servicemitarbeiter weiterleiten oder ihm helfen, einen HR-Fall zu erstellen.

    Now Assist-Beschützer zur Laufzeit

    Alle Kompetenzen, die Now Assist-Beschützer verwenden, entfernen personenbezogene Daten, bevor die Anforderung das LLM erreicht. Sie können auswählen, welche Arten von Daten erfasst werden. Weitere Informationen finden Sie unter Now Assist für Datenschutz konfigurieren.

    Für Konversationskompetenzen verarbeitet die semantische Suche Anforderungen, um zu bestimmen, ob ein Filter erkannt wurde. In diesem Fall wird der Benutzer zu einem Virtual Agent -Thema weitergeleitet, in dem er gefragt wird, ob er einen HR-Fall erstellen oder mit einem Service Desk-Mitarbeiter sprechen möchte.

    Infografik, die Now Assist-Beschützer zur Laufzeit mit Empfindlichkeitsfilter-Schutzmaßnahmen zeigt

    Für die Generierung von Katalogelementen und Service Desk-Mitarbeiter-Kompetenzen wie Zusammenfassung und Lösungshinweisgenerierung werden Schutzmaßnahmen für Offensivität und Eingabeaufforderungsinjektionen für Eingaben und Ausgaben von Anforderungen ausgeführt. Wenn einer der beiden erkannt wird, protokolliert Now Assist Bucket die Anforderung. Wenn Sie diesen Inhalt blockiert haben, wird eine Standardfehlermeldung angezeigt, und der Anwender sieht das Ergebnis der Anforderung nicht.

    Infografik, die Now Assist-Beschützer zur Laufzeit mit Offensivität und Sicherheitsmaßnahmen zeigt

    Sicherheitskategorien

    Im Folgenden finden Sie die verschiedenen Arten von Inhalten, die als anstößig oder als Sicherheitsrisiko darstellend gekennzeichnet werden können. Sie können identifizieren, welche Kategorien in den Now Assist Guard-Protokollen für die verschiedenen Schutzmaßnahmen erfasst werden.

    Kategorie

    Kategorie-ID

    Beschreibung

    Toxische Inhalte

    O1

    Sollte nicht: Hassreden fördern, zu Gewalt wie Kindesmissbrauch oder Mobbing anstacheln oder sich an persönlichen Angriffen oder Belästigungen beteiligen.

    Kann: Diskutieren Sie zu Schulungszwecken über die Auswirkungen von schädlichen Inhalten und gesellschaftliche Probleme.

    Unfaire Darstellung

    O2

    Sollte nicht: Zur Aufrechterhaltung von Klischees beitragen oder Diskriminierung oder Voreingenommenheit fördern

    Kann: Probleme der Repräsentation besprechen und Bewusstsein und Inklusion fördern.

    Pornografische Inhalte

    O3

    Sollte nicht: Zeigen Sie explizit lesbisches Material oder Inhalte, die für Minderjährigen unangemessen sind, einschließlich Policy, Erotik-Chat und sexuelle Aktivität.

    Kann: Bildungsdiskussionen zu Themen im Zusammenhang mit sexueller Identität und Einwilligung anbieten

    Erosion des Vertrauens in öffentliche Informationen

    O4

    Sollte nicht: Die Verbreitung von Falschinformationen oder Desinformationen, die das Vertrauen der Öffentlichkeit unterminieren, z. B. irreführende medizinische Ratschläge, illegale Drogen und Ratschläge.

    Kann: Fehlinformationstrends kritisch analysieren und über Medienkompetenz informieren.

    Verbreitung falscher Vorstellungen/Anschauungen

    O5

    Sollte nicht: Verbreiten Sie unbestätigte, irreführende Informationen, Verschwörungstheoren, wissenschaftliche Leugnung, Geschichtsrevision oder Inhalte, die zu Extremisierungen führen könnten.

    Kann: Kritische Analysen bereitstellen und häufige Missverständnisse und falsche Annahmen entlarven.

    Riskante Finanzpraktiken

    O6

    Sollte nicht: Förderung unethischer Handelspraktiken wie Multi-Level-Marketing, täuschende Kreditvergabepraktiken oder Glücksspiel.

    Kann: Aufklären über verbundene Risiken, ethische Kreditvergabe, verantwortliches Spiel, Compliance mit Handelsbestimmungen und faire Geschäftspraktiken.

    Handel und Compliance

    O7

    Sollte nicht: in Arbeitsfragen verwickeln, sich an unethischen Handelsbeziehungen beteiligen, zu unfairen Arbeitspraktiken beitragen oder betrügerische Handelspraktiken fördern

    Kann: Bereitstellung von Informationen und Einblicken in Arbeitsprobleme, ethische Handelspraktiken, Handels-Compliance und faires Geschäftsgebaren.

    Verbreitung gefährlicher Informationen

    O8

    Sollte nicht: Verbreitung von Falschmeldungen, Verbreitung von Social-Media-Gerüchten, Offenlegung von Regierungsgeheimnissen oder Weitergabe von Finanzdaten und anderen Inhalten, die zu öffentlicher Panik oder zur nationalen Sicherheit beitragen

    Kann: Über die Gefahren solcher Informationen aufklären und deren Sicherheit fördern

    Verletzung der Privatsphäre

    O9

    Sollte nicht: Doxxing, nicht autorisierte Datenfreigabe oder Überwachung wie das Ableiten oder Durchsickern privater Informationen betreffen.

    Kann: Diskutieren Sie die Bedeutung von Datenschutzrechten und digitaler Sicherheit.

    Sicherheitsbedrohungen

    O10

    Sollte nicht: Verbreitung von Malware oder Förderung vonTerrorismus oder anderen Sicherheitsbedrohungen wie Generierung vonWaffen, Cyberangriffe oder schädliche Chemikalien.

    Kann: Bereitstellung von Informationen und Methoden zur Identifizierung und Minimierung von Sicherheitsbedrohungen

    Verleumdung

    O11

    Sollte nicht: Falsche Aussagen veröffentlichen, die Personen, Gruppen oder Organisationen schaden.

    Kann: Sich mit den rechtlichen und ethischen Aspekten von Verleumdung und freier Meinungsäußerung befassen

    Betrugs- oder Täuschungshandlung

    O12

    Sollte nicht: Begehen Sie akademische Unredlichkeit, begehen Sie Betrügereien, fördern Sie Pseudo-Arzneimittel oder verbreiten Sie falsche Online-Inhalte. Der Inhalt darf keine Personen täuschen oder betrügen.

    Kann: Schulungen zum Erkennen und Verhindern betrügerischer Aktivitäten

    Einflussoperationen

    O13

    Sollte nicht: Die öffentliche Meinung manipulieren oder den gesellschaftlichen Einklang für politische oder ideologische Zwecke wie Überwachung oder Wahlkampagne stören.

    Kann: Art und Auswirkung von Einflussnahmevorgängen analysieren und darüber informieren.

    Rechtswidrige Handlungen

    O14

    Sollte nicht: Die Beteiligung an illegalen Handlungen wie Straftaten oder Tererror fördern oder diesbezügliche Anleitungen geben.

    Kann: Über die Konsequenzen und die Verhinderung illegaler Aktivitäten aufklären.

    Überredung und Manipulation

    O15

    Sollte nicht: Überredungs- oder Manipulationstechniken verwenden, die Selbstverletzung, geistige Manipulation oder jede Form der Schädigung des Wohlergehens von Personen fördern

    Kann: Über das Erkennen und Abwehren von Manipulation aufklären und Unterstützung und Ressourcen für Betroffene anbieten.

    Verletzung persönlichen Eigentums

    O16

    Sollte nicht: Verletzung des persönlichen Eigentums einer Person durch böswillige Nachahmung, Plagiierung, Urheberrechtsverletzung und Identitätsfälschung.

    Kann: Das Bewusstsein und die Diskussionen über den Schutz von persönlichem Eigentum und die Verhinderung solcher Verstöße fördern.

    Kompetenzen, die Now Assist Guard unterstützen

    Tabelle : 1. Unterstützte Kompetenzen nach Workflow
    Workflow Unterstützte Kompetenzen nach Produkt
    Technologie
    Now Assist for Configuration Management Database (CMDB)
    Now Assist for IT Operations Management (ITOM)
    Now Assist for IT Service Management (ITSM)
    Now Assist for Security Incident Response
    Diagnose: a Service Graph Connector
    Now Assist for Strategic Portfolio Management (SPM)
    Kunde
    Now Assist for Customer Service Management (CSM)
    Now Assist for Field Service Management (FSM)
    Now Assist for Financial Services Operations (FSO)
    Now Assist for PSDS
    Mitarbeiter
    Now Assist for Health and Safety
    Zusammenfassung von Arbeitsschutz-Incidents
    Now Assist for HR Service Delivery (HRSD)
    Now Assist for Legal Service Delivery (LSD)
    Zusammenfassung von Rechtsangelegenheiten
    Zusammenfassung von Anfragen an die Rechtsabteilung
    Kompetenzen für Now Assist in Contract Management:
    Ersteller
    Now Assist for Creator
    Katalogelementgenerierung
    Finanzwesen und Lieferkette
    Now Assist for Accounts Payable Operations (APO)
    Zusammenfassung von Rechnungsfällen
    Now Assist for Supplier Lifecycle Operations (SLO)
    Zusammenfassung eines Lieferantenfalls
    Now Assist for Sourcing and Procurement Operations (SPO)
    Erfüller-Zusammenfassung für Sourcing and Procurement Operations

    Now Assist Guardian Analytics

    Überwachen Sie die Leistung von Schutzmaßnahmen, die durch Now Assist Guardianaktiviert werden.

    Das Analytics-Dashboard Now Assist Guardian hilft Administratoren, die Effektivität von anstößigen Inhalten und Schutzmaßnahmen für die Eingabeaufforderung bei der Nachverfolgung und Analyse von Anforderungen, die an große Sprachmodelle (LLM) gesendet werden, und deren Antworten zu überwachen und zu bewerten.

    Abbildung : 1. Now Assist Guardian Dashboard-Seite
    Dashboard-Seite für Aufforderungsinjektion
    Die -Indikatoren auf der Seite des -Dashboards Now Assist Guardian bieten die folgenden Einblicke.
    • Durchschnittliche Latenz als Ergebnis aktiver anstößiger Inhalte und Einschleusungsschutzmaßnahmen. Eine hohe Latenz kann eine erhöhte Aktivität von Schutzmaßnahmen im Zeitraum bedeuten.
    • Anzahl und Prozentsatz der anstößigen Inhalte und der Eingabeaufforderungsinjektionen.
    • Kompetenzen, bei denen anstößige Inhalte und Eingabeaufforderungsinjektionen erkannt wurden.

    Wenden Sie die Filter im Dashboard an, um die Schutzmaßnahmenaktivität für Kompetenzen in einem Datumsbereich anzuzeigen. Informationen zu den Daten und Berechnungen hinter den einzelnen Indikatoren finden Sie unter Now Assist Analytics Dashboard-Indikatordetails.

    Indikatoren für anstößige Inhalte

    Von Schutzmaßnahmen hinzugefügte Latenz
    In diesem Bereich des Dashboards wird die durchschnittliche Latenz als Ergebnis des aktiven Schutzplans für anstößige Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
    Abbildung : 2. Von Schutzmaßnahmen hinzugefügter Latenzindikator
    Schutzmaßnahmenlatenz für Eingabeaufforderungsinjektion.
    Als anstößig gekennzeichneter Prozentsatz
    In diesem Bereich des Dashboards wird der Prozentsatz der Anforderungen und Antworten an den und vom LLM-Service angezeigt, die für anstößige Inhalte gekennzeichnet sind.
    Abbildung : 3. Prozentsatz, der als anstößiger Indikator gekennzeichnet ist
    Prozentsatz der Vorkommen von anstößigen Inhalten.
    Gesamtzahl der anstößigen Inhalte
    In diesem Bereich des Dashboards wird die Gesamtanzahl der anstößigen Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
    Abbildung : 4. Indikator für die Gesamtzahl der anstößigen Inhalte
    Gesamtzahl der anstößigen Inhalte.
    Kategorien von anstößigen Inhalten
    In diesem Bereich des Dashboards wird eine Aufgliederung der anstößigen Inhalte nach Kategorien angezeigt. Wenn Inhalte in mehr als einer Kategorie als anstößig eingestuft werden, z. B. toxisch und verleumderisch, wird das Vorkommen für beide Kategorien einzeln gezählt. Weitere Informationen zu anstößigen Inhaltskategorien finden Sie unter Now Assist Guardian.
    Abbildung : 5. Kategorien des Indikators für anstößige Inhalte
    Kategorien des Indikators für anstößige Inhalte.
    Vorkommen anstößiger Inhalte nach Kompetenz
    In diesem Bereich des Dashboards wird die Anzahl der Vorkommen von anstößigen Inhalten im Zeitverlauf anhand der Kompetenzen angezeigt, in denen der Inhalt erkannt wurde.
    Abbildung : 6. Vorkommen anstößiger Inhalte nach Kompetenzindikator
    Vorkommen anstößiger Inhalte nach Kompetenz.

    Indikatoren für Aufforderungsinjektionen

    Von Schutzmaßnahmen hinzugefügte Latenz
    In diesem Bereich des Dashboards wird die durchschnittliche Latenz als Ergebnis des aktiven Schutzmaßnahmenschutzes für die Eingabeaufforderungsinjektion für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
    Abbildung : 7. Von Schutzmaßnahmen hinzugefügter Latenzindikator
    Von Schutzmaßnahmen hinzugefügter Latenzindikator.
    Prozentsatz, der als sofortige Einschleusung gekennzeichnet ist
    In diesem Bereich des Dashboards wird der Prozentsatz der Anforderungen und Antworten an den und vom LLM-Service angezeigt, die für anstößige Inhalte gekennzeichnet sind.
    Abbildung : 8. Prozentsatz, der als Indikator für die Aufforderungsinjektion gekennzeichnet ist
    Prozentsatz, der als Indikator für die Aufforderungsinjektion gekennzeichnet ist.
    Gesamtzahl der Vorkommen der Eingabeaufforderungsinjektion
    In diesem Bereich des Dashboards wird die Gesamtanzahl der anstößigen Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
    Abbildung : 9. Indikator für das Vorkommen der Prompteinschleusung insgesamt
    Gesamtzahl der Vorkommen der Eingabeaufforderungsinjektion
    Aufforderungsinjektionsvorkommen nach Kompetenz
    In diesem Bereich des Dashboards wird die Anzahl der Aufforderungseinschleusungen im Zeitverlauf nach den Kompetenzen angezeigt, für die Aufforderungseinschleusungen erkannt wurden.
    Abbildung : 10. Aufforderungsinjektionsvorkommen nach Kompetenzindikator
    Aufforderungsinjektionsvorkommen nach Kompetenzindikator.