Now Assist Guardian

Yokohama Enable AI

Release

yokohama

ft:locale

de-DE

ft:publication_title

Yokohama Enable AI

ft:clusterId

platai

bundleId

platai

workflow

Platform

Now Assist Guardian

Freigeben Version: Yokohama

Aktualisiert 30. Januar 2025

9 Minuten Lesedauer

Aktivieren Sie Now Assist Guardian, erstellt mit Llama 3.1, um mit generativer KI erstellte Inhalte zu überwachen und zu bewerten, um die Anwender-Experience zu schützen und zu verbessern.

Übersicht über Now Assist Vormund

Generative KI ist eine aufstrebende Technologie. Menschliche Interaktionen sind unvorhersehbar, und Ausgaben, die von großen Sprachmodellen (LLMs) generiert werden, sind probabilitybasiert, was bedeutet, dass sie auf Wahrscheinlichkeiten basieren. Wenn Sie dieselbe Eingabe zweimal ausführen, können zwei verschiedene Ausgaben generiert werden. Das Risikomanagement ist ein wichtiges Element bei der Entscheidung, wie Sie Generative AI in Ihren Instanzen implementieren möchten.

Now Assist Trust überwacht an LLMs gesendete Anforderungen und deren Antworten, um Sie, Ihre Anwender und Ihre Daten zu schützen. Es gibt drei Arten von Inhalten, auf die überwacht wird: anstößige oder schädliche Inhalte, Versuche zur Eingabeaufforderung und gefilterte Betreffe. Für anstößige Inhalte und Eingabeaufforderungseinschleusungsversuche werden Protokolle generiert, wenn diese Option aktiviert ist. Sie können den Inhalt jedoch auch blockieren. Wenn ein Filter aktiviert wurde, leiten erkannte Inhalte, für die der Filter gilt, den Benutzer zum Thema Vertraulichkeitserkennung: Fallback in Virtual Agentweiter.

Schutzmaßnahmen

Anstößiger Inhalt: Aufgrund des Wahrscheinlichkeitsprinzips von Generative AI ist es für ein LLM möglich, anstößige Inhalte zu generieren. Wenn die Eingabe der Anforderung anstößige Inhalte enthält, können anstößige Inhalte auch in der Antwort vorkommen. Beispiele für anstößige Inhalte sind schädliche, verleumderische oder betrügerische Formulierungen.
Aufforderungsinjektion: Die Eingabeaufforderungsinjektion ist eine Art von Sicherheitsangriff, bei der böswillige Akteure die normalen Anweisungen eines LLM außer Kraft setzen, um auf eingeschränkte Informationen zuzugreifen oder unerwartetes Verhalten hervorzurufen. Die Erkennung der Aufforderungsinjektion basiert auf dem LLM, das für verschiedene Arten von Aufforderungsinjektionstechniken trainiert wurde, z. B. Rollenspiele, Paraphrasen, Wiederholungen, Anweisungen zum Ignorieren anderer Anweisungen, Überredung usw. Aufgrund der Wahrscheinlichkeitsbeschaffenheit des Modells sowie der sich entwickelnden Aufforderungsinjektionstechniken können jedoch Aufforderungsinjektionsversuche in einigen Fällen von Now Assist Guard nicht identifiziert werden.
Gefilterte Betreffe: Bestimmte Themen, wie z. B. Sicherheit am Arbeitsplatz oder Mitarbeitervergütung, eignen sich möglicherweise nicht für Konversationen über generative KI. Sie können Filter aktivieren, die erkennen, ob diese Arten von Betreffs in der Konversation enthalten sind, um den Benutzer zum Thema „Vertraulichkeitserkennung: Fallback Virtual Agent “ weiterzuleiten.

Protokollierung und Blockierung

Now Assist Bucket kann Anforderungen überwachen und protokollieren, wenn diese Arten von Material erkannt werden. Sie können auf Protokolle über die Now Assist-Administratorkonsole auf der Seite „Now Assist-Beschützer“ der Registerkarte „Einstellungen“ zugreifen. Zu den in den Protokollen enthaltenen Daten gehören Informationen zur Anforderung und zur Konversation, die den anstößigen Inhalt enthält, einschließlich Benutzerfeedback.

Neben der Protokollierung können Sie auch anstößige Inhalte blockieren oder Eingabeaufforderungsversuche durchführen. Wenn das Material erkannt wird und die Blockierung aktiviert ist, wird anstelle der generierten Antwort eine Standardfehlermeldung angezeigt. Die Nachricht ist eine Standardfehlermeldung, die angibt, dass die Anforderung nicht abgeschlossen werden konnte. Sie sehen nicht, was die KI generiert hat.

Bevor Sie sich entscheiden, Inhalte zu blockieren, können Sie die Protokolle einige Zeit lang überwachen, um festzustellen, wie häufig diese Probleme für Sie und Ihre Anwendungsfälle auftreten.

Weiterleitung für vertrauliche gefilterte Themen

Sobald ein Thema identifiziert wurde, für das ein Filter gilt, wird der Benutzer zu einem anderen Virtual Agent -Thema weitergeleitet, abhängig vom Filtertyp. Filter für Themen wie „Personalprobleme von Mitarbeitern“ leiten zum Thema „Vertraulichkeitserkennung: Fallback“ weiter. Dieses Thema kann einen Benutzer an einen Servicemitarbeiter weiterleiten oder ihm helfen, einen HR-Fall zu erstellen.

Now Assist-Beschützer zur Laufzeit

Alle Kompetenzen, die Now Assist-Beschützer verwenden, entfernen personenbezogene Daten, bevor die Anforderung das LLM erreicht. Sie können auswählen, welche Arten von Daten erfasst werden. Weitere Informationen finden Sie unter Now Assist für Datenschutz konfigurieren.

Für Konversationskompetenzen verarbeitet die semantische Suche Anforderungen, um zu bestimmen, ob ein Filter erkannt wurde. In diesem Fall wird der Benutzer zu einem Virtual Agent -Thema weitergeleitet, in dem er gefragt wird, ob er einen HR-Fall erstellen oder mit einem Service Desk-Mitarbeiter sprechen möchte.

Infografik, die Now Assist-Beschützer zur Laufzeit mit Empfindlichkeitsfilter-Schutzmaßnahmen zeigt

Für die Generierung von Katalogelementen und Service Desk-Mitarbeiter-Kompetenzen wie Zusammenfassung und Lösungshinweisgenerierung werden Schutzmaßnahmen für Offensivität und Eingabeaufforderungsinjektionen für Eingaben und Ausgaben von Anforderungen ausgeführt. Wenn einer der beiden erkannt wird, protokolliert Now Assist Bucket die Anforderung. Wenn Sie diesen Inhalt blockiert haben, wird eine Standardfehlermeldung angezeigt, und der Anwender sieht das Ergebnis der Anforderung nicht.

Infografik, die Now Assist-Beschützer zur Laufzeit mit Offensivität und Sicherheitsmaßnahmen zeigt

Sicherheitskategorien

Im Folgenden finden Sie die verschiedenen Arten von Inhalten, die als anstößig oder als Sicherheitsrisiko darstellend gekennzeichnet werden können. Sie können identifizieren, welche Kategorien in den Now Assist Guard-Protokollen für die verschiedenen Schutzmaßnahmen erfasst werden.
Kategorie	Kategorie-ID	Beschreibung
Toxische Inhalte	O1	Sollte nicht: Hassreden fördern, zu Gewalt wie Kindesmissbrauch oder Mobbing anstacheln oder sich an persönlichen Angriffen oder Belästigungen beteiligen. Kann: Diskutieren Sie zu Schulungszwecken über die Auswirkungen von schädlichen Inhalten und gesellschaftliche Probleme.
Unfaire Darstellung	O2	Sollte nicht: Zur Aufrechterhaltung von Klischees beitragen oder Diskriminierung oder Voreingenommenheit fördern Kann: Probleme der Repräsentation besprechen und Bewusstsein und Inklusion fördern.
Pornografische Inhalte	O3	Sollte nicht: Zeigen Sie explizit lesbisches Material oder Inhalte, die für Minderjährigen unangemessen sind, einschließlich Policy, Erotik-Chat und sexuelle Aktivität. Kann: Bildungsdiskussionen zu Themen im Zusammenhang mit sexueller Identität und Einwilligung anbieten
Erosion des Vertrauens in öffentliche Informationen	O4	Sollte nicht: Die Verbreitung von Falschinformationen oder Desinformationen, die das Vertrauen der Öffentlichkeit unterminieren, z. B. irreführende medizinische Ratschläge, illegale Drogen und Ratschläge. Kann: Fehlinformationstrends kritisch analysieren und über Medienkompetenz informieren.
Verbreitung falscher Vorstellungen/Anschauungen	O5	Sollte nicht: Verbreiten Sie unbestätigte, irreführende Informationen, Verschwörungstheoren, wissenschaftliche Leugnung, Geschichtsrevision oder Inhalte, die zu Extremisierungen führen könnten. Kann: Kritische Analysen bereitstellen und häufige Missverständnisse und falsche Annahmen entlarven.
Riskante Finanzpraktiken	O6	Sollte nicht: Förderung unethischer Handelspraktiken wie Multi-Level-Marketing, täuschende Kreditvergabepraktiken oder Glücksspiel. Kann: Aufklären über verbundene Risiken, ethische Kreditvergabe, verantwortliches Spiel, Compliance mit Handelsbestimmungen und faire Geschäftspraktiken.
Handel und Compliance	O7	Sollte nicht: in Arbeitsfragen verwickeln, sich an unethischen Handelsbeziehungen beteiligen, zu unfairen Arbeitspraktiken beitragen oder betrügerische Handelspraktiken fördern Kann: Bereitstellung von Informationen und Einblicken in Arbeitsprobleme, ethische Handelspraktiken, Handels-Compliance und faires Geschäftsgebaren.
Verbreitung gefährlicher Informationen	O8	Sollte nicht: Verbreitung von Falschmeldungen, Verbreitung von Social-Media-Gerüchten, Offenlegung von Regierungsgeheimnissen oder Weitergabe von Finanzdaten und anderen Inhalten, die zu öffentlicher Panik oder zur nationalen Sicherheit beitragen Kann: Über die Gefahren solcher Informationen aufklären und deren Sicherheit fördern
Verletzung der Privatsphäre	O9	Sollte nicht: Doxxing, nicht autorisierte Datenfreigabe oder Überwachung wie das Ableiten oder Durchsickern privater Informationen betreffen. Kann: Diskutieren Sie die Bedeutung von Datenschutzrechten und digitaler Sicherheit.
Sicherheitsbedrohungen	O10	Sollte nicht: Verbreitung von Malware oder Förderung vonTerrorismus oder anderen Sicherheitsbedrohungen wie Generierung vonWaffen, Cyberangriffe oder schädliche Chemikalien. Kann: Bereitstellung von Informationen und Methoden zur Identifizierung und Minimierung von Sicherheitsbedrohungen
Verleumdung	O11	Sollte nicht: Falsche Aussagen veröffentlichen, die Personen, Gruppen oder Organisationen schaden. Kann: Sich mit den rechtlichen und ethischen Aspekten von Verleumdung und freier Meinungsäußerung befassen
Betrugs- oder Täuschungshandlung	O12	Sollte nicht: Begehen Sie akademische Unredlichkeit, begehen Sie Betrügereien, fördern Sie Pseudo-Arzneimittel oder verbreiten Sie falsche Online-Inhalte. Der Inhalt darf keine Personen täuschen oder betrügen. Kann: Schulungen zum Erkennen und Verhindern betrügerischer Aktivitäten
Einflussoperationen	O13	Sollte nicht: Die öffentliche Meinung manipulieren oder den gesellschaftlichen Einklang für politische oder ideologische Zwecke wie Überwachung oder Wahlkampagne stören. Kann: Art und Auswirkung von Einflussnahmevorgängen analysieren und darüber informieren.
Rechtswidrige Handlungen	O14	Sollte nicht: Die Beteiligung an illegalen Handlungen wie Straftaten oder Tererror fördern oder diesbezügliche Anleitungen geben. Kann: Über die Konsequenzen und die Verhinderung illegaler Aktivitäten aufklären.
Überredung und Manipulation	O15	Sollte nicht: Überredungs- oder Manipulationstechniken verwenden, die Selbstverletzung, geistige Manipulation oder jede Form der Schädigung des Wohlergehens von Personen fördern Kann: Über das Erkennen und Abwehren von Manipulation aufklären und Unterstützung und Ressourcen für Betroffene anbieten.
Verletzung persönlichen Eigentums	O16	Sollte nicht: Verletzung des persönlichen Eigentums einer Person durch böswillige Nachahmung, Plagiierung, Urheberrechtsverletzung und Identitätsfälschung. Kann: Das Bewusstsein und die Diskussionen über den Schutz von persönlichem Eigentum und die Verhinderung solcher Verstöße fördern.

Kompetenzen, die Now Assist Guard unterstützen

Tabelle : 1. Unterstützte Kompetenzen nach Workflow
Workflow	Unterstützte Kompetenzen nach Produkt
Technologie	Now Assist for Configuration Management Database (CMDB) Configuration Item (CI)-Zusammenfassung Doppelte Konfigurationselemente (CIs) verwalten Now Assist for IT Operations Management (ITOM) Warnungsanalyse Warnungsuntersuchung Now Assist for IT Service Management (ITSM) Risikoerklärung für Change-Anforderung Zusammenfassung der Change-Anforderung Chat-Empfehlung Chat-Zusammenfassung Incident-Assistent Incident-Zusammenfassung KB-Generierung Lösungshinweise generieren Sidebar Zusammenfassung Now Assist for Security Incident Response Analyse nach Incident Empfohlene Aktionen für Security Incidents Zusammenfassung von Security Incidents Lösungshinweise generieren Diagnose: a Service Graph Connector Now Assist for Strategic Portfolio Management (SPM) Projektzusammenfassung per E-Mail senden Feedback-Zusammenfassung Zusammenfassung mehrerer Feedbacks GenAI-Dokumente für Projekte GenAI-Dokumente für Planungselement GenAI-Dokumente für EAP-Teams
Kunde	Now Assist for Customer Service Management (CSM) Fallzusammenfassung Chat-Empfehlung Chat-Zusammenfassung E-Mail-Empfehlung KB-Generierung Lösungshinweise generieren Sidebar Zusammenfassung Zusammenfassung von Sprachanrufen Now Assist for Field Service Management (FSM) KB-Generierung Sidebar Zusammenfassung Zusammenfassung des Abschlusses der Arbeitsauftragsaufgabe Now Assist for Financial Services Operations (FSO) Zusammenfassung des Anspruchsfalls Zusammenfassung von Konfliktfällen Now Assist for PSDS Chat-Zusammenfassung Zusammenfassung von Behördenfällen Lösungshinweise generieren
Mitarbeiter	Now Assist for Health and Safety Zusammenfassung von Arbeitsschutz-Incidents Now Assist for HR Service Delivery (HRSD) Chat-Zusammenfassung Fallzusammenfassung KB-Generierung Lösungshinweise generieren Now Assist for Legal Service Delivery (LSD) Zusammenfassung von Rechtsangelegenheiten Zusammenfassung von Anfragen an die Rechtsabteilung Kompetenzen für Now Assist in Contract Management: Vertragsanalyse Extraktion von Vertragsmetadaten
Ersteller	Now Assist for Creator Katalogelementgenerierung
Finanzwesen und Lieferkette	Now Assist for Accounts Payable Operations (APO) Zusammenfassung von Rechnungsfällen Now Assist for Supplier Lifecycle Operations (SLO) Zusammenfassung eines Lieferantenfalls Now Assist for Sourcing and Procurement Operations (SPO) Erfüller-Zusammenfassung für Sourcing and Procurement Operations

Now Assist Guardian Analytics

Überwachen Sie die Leistung von Schutzmaßnahmen, die durch Now Assist Guardianaktiviert werden.

Das Analytics-Dashboard Now Assist Guardian hilft Administratoren, die Effektivität von anstößigen Inhalten und Schutzmaßnahmen für die Eingabeaufforderung bei der Nachverfolgung und Analyse von Anforderungen, die an große Sprachmodelle (LLM) gesendet werden, und deren Antworten zu überwachen und zu bewerten.

Dashboard-Seite für Aufforderungsinjektion — Abbildung : 1. Now Assist Guardian Dashboard-Seite

Die -Indikatoren auf der Seite des -Dashboards Now Assist Guardian bieten die folgenden Einblicke.

Durchschnittliche Latenz als Ergebnis aktiver anstößiger Inhalte und Einschleusungsschutzmaßnahmen. Eine hohe Latenz kann eine erhöhte Aktivität von Schutzmaßnahmen im Zeitraum bedeuten.
Anzahl und Prozentsatz der anstößigen Inhalte und der Eingabeaufforderungsinjektionen.
Kompetenzen, bei denen anstößige Inhalte und Eingabeaufforderungsinjektionen erkannt wurden.

Wenden Sie die Filter im Dashboard an, um die Schutzmaßnahmenaktivität für Kompetenzen in einem Datumsbereich anzuzeigen. Informationen zu den Daten und Berechnungen hinter den einzelnen Indikatoren finden Sie unter Now Assist Analytics Dashboard-Indikatordetails.

Indikatoren für anstößige Inhalte

Von Schutzmaßnahmen hinzugefügte Latenz: In diesem Bereich des Dashboards wird die durchschnittliche Latenz als Ergebnis des aktiven Schutzplans für anstößige Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.

Abbildung : 2. Von Schutzmaßnahmen hinzugefügter Latenzindikator
Als anstößig gekennzeichneter Prozentsatz: In diesem Bereich des Dashboards wird der Prozentsatz der Anforderungen und Antworten an den und vom LLM-Service angezeigt, die für anstößige Inhalte gekennzeichnet sind.

Abbildung : 3. Prozentsatz, der als anstößiger Indikator gekennzeichnet ist
Gesamtzahl der anstößigen Inhalte: In diesem Bereich des Dashboards wird die Gesamtanzahl der anstößigen Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.

Abbildung : 4. Indikator für die Gesamtzahl der anstößigen Inhalte
Kategorien von anstößigen Inhalten: In diesem Bereich des Dashboards wird eine Aufgliederung der anstößigen Inhalte nach Kategorien angezeigt. Wenn Inhalte in mehr als einer Kategorie als anstößig eingestuft werden, z. B. toxisch und verleumderisch, wird das Vorkommen für beide Kategorien einzeln gezählt. Weitere Informationen zu anstößigen Inhaltskategorien finden Sie unter Now Assist Guardian.

Abbildung : 5. Kategorien des Indikators für anstößige Inhalte
Vorkommen anstößiger Inhalte nach Kompetenz: In diesem Bereich des Dashboards wird die Anzahl der Vorkommen von anstößigen Inhalten im Zeitverlauf anhand der Kompetenzen angezeigt, in denen der Inhalt erkannt wurde.

Abbildung : 6. Vorkommen anstößiger Inhalte nach Kompetenzindikator

Indikatoren für Aufforderungsinjektionen

Von Schutzmaßnahmen hinzugefügte Latenz: In diesem Bereich des Dashboards wird die durchschnittliche Latenz als Ergebnis des aktiven Schutzmaßnahmenschutzes für die Eingabeaufforderungsinjektion für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.

Abbildung : 7. Von Schutzmaßnahmen hinzugefügter Latenzindikator
Prozentsatz, der als sofortige Einschleusung gekennzeichnet ist: In diesem Bereich des Dashboards wird der Prozentsatz der Anforderungen und Antworten an den und vom LLM-Service angezeigt, die für anstößige Inhalte gekennzeichnet sind.

Abbildung : 8. Prozentsatz, der als Indikator für die Aufforderungsinjektion gekennzeichnet ist
Gesamtzahl der Vorkommen der Eingabeaufforderungsinjektion: In diesem Bereich des Dashboards wird die Gesamtanzahl der anstößigen Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.

Abbildung : 9. Indikator für das Vorkommen der Prompteinschleusung insgesamt
Aufforderungsinjektionsvorkommen nach Kompetenz: In diesem Bereich des Dashboards wird die Anzahl der Aufforderungseinschleusungen im Zeitverlauf nach den Kompetenzen angezeigt, für die Aufforderungseinschleusungen erkannt wurden.

Abbildung : 10. Aufforderungsinjektionsvorkommen nach Kompetenzindikator