Now Assist Guardian
Aktivieren Sie Now Assist Guardian, erstellt mit Llama 3.1, um mit generativer KI erstellte Inhalte zu überwachen und zu bewerten, um die Anwender-Experience zu schützen und zu verbessern.
Übersicht über Now Assist Vormund
Generative KI ist eine aufstrebende Technologie. Menschliche Interaktionen sind unvorhersehbar, und Ausgaben, die von großen Sprachmodellen (LLMs) generiert werden, sind probabilitybasiert, was bedeutet, dass sie auf Wahrscheinlichkeiten basieren. Wenn Sie dieselbe Eingabe zweimal ausführen, können zwei verschiedene Ausgaben generiert werden. Das Risikomanagement ist ein wichtiges Element bei der Entscheidung, wie Sie Generative AI in Ihren Instanzen implementieren möchten.
Now Assist Trust überwacht an LLMs gesendete Anforderungen und deren Antworten, um Sie, Ihre Anwender und Ihre Daten zu schützen. Es gibt drei Arten von Inhalten, auf die überwacht wird: anstößige oder schädliche Inhalte, Versuche zur Eingabeaufforderung und gefilterte Betreffe. Für anstößige Inhalte und Eingabeaufforderungseinschleusungsversuche werden Protokolle generiert, wenn diese Option aktiviert ist. Sie können den Inhalt jedoch auch blockieren. Wenn ein Filter aktiviert wurde, leiten erkannte Inhalte, für die der Filter gilt, den Benutzer zum Thema Vertraulichkeitserkennung: Fallback in Virtual Agentweiter.
Schutzmaßnahmen
- Anstößiger Inhalt
- Aufgrund des Wahrscheinlichkeitsprinzips von Generative AI ist es für ein LLM möglich, anstößige Inhalte zu generieren. Wenn die Eingabe der Anforderung anstößige Inhalte enthält, können anstößige Inhalte auch in der Antwort vorkommen. Beispiele für anstößige Inhalte sind schädliche, verleumderische oder betrügerische Formulierungen.
- Aufforderungsinjektion
- Die Eingabeaufforderungsinjektion ist eine Art von Sicherheitsangriff, bei der böswillige Akteure die normalen Anweisungen eines LLM außer Kraft setzen, um auf eingeschränkte Informationen zuzugreifen oder unerwartetes Verhalten hervorzurufen. Die Erkennung der Aufforderungsinjektion basiert auf dem LLM, das für verschiedene Arten von Aufforderungsinjektionstechniken trainiert wurde, z. B. Rollenspiele, Paraphrasen, Wiederholungen, Anweisungen zum Ignorieren anderer Anweisungen, Überredung usw. Aufgrund der Wahrscheinlichkeitsbeschaffenheit des Modells sowie der sich entwickelnden Aufforderungsinjektionstechniken können jedoch Aufforderungsinjektionsversuche in einigen Fällen von Now Assist Guard nicht identifiziert werden.
- Gefilterte Betreffe
- Bestimmte Themen, wie z. B. Sicherheit am Arbeitsplatz oder Mitarbeitervergütung, eignen sich möglicherweise nicht für Konversationen über generative KI. Sie können Filter aktivieren, die erkennen, ob diese Arten von Betreffs in der Konversation enthalten sind, um den Benutzer zum Thema „Vertraulichkeitserkennung: Fallback Virtual Agent “ weiterzuleiten.
Protokollierung und Blockierung
Now Assist Bucket kann Anforderungen überwachen und protokollieren, wenn diese Arten von Material erkannt werden. Sie können auf Protokolle über die Now Assist-Administratorkonsole auf der Seite „Now Assist-Beschützer“ der Registerkarte „Einstellungen“ zugreifen. Zu den in den Protokollen enthaltenen Daten gehören Informationen zur Anforderung und zur Konversation, die den anstößigen Inhalt enthält, einschließlich Benutzerfeedback.
Neben der Protokollierung können Sie auch anstößige Inhalte blockieren oder Eingabeaufforderungsversuche durchführen. Wenn das Material erkannt wird und die Blockierung aktiviert ist, wird anstelle der generierten Antwort eine Standardfehlermeldung angezeigt. Die Nachricht ist eine Standardfehlermeldung, die angibt, dass die Anforderung nicht abgeschlossen werden konnte. Sie sehen nicht, was die KI generiert hat.
Bevor Sie sich entscheiden, Inhalte zu blockieren, können Sie die Protokolle einige Zeit lang überwachen, um festzustellen, wie häufig diese Probleme für Sie und Ihre Anwendungsfälle auftreten.
Weiterleitung für vertrauliche gefilterte Themen
Sobald ein Thema identifiziert wurde, für das ein Filter gilt, wird der Benutzer zu einem anderen Virtual Agent -Thema weitergeleitet, abhängig vom Filtertyp. Filter für Themen wie „Personalprobleme von Mitarbeitern“ leiten zum Thema „Vertraulichkeitserkennung: Fallback“ weiter. Dieses Thema kann einen Benutzer an einen Servicemitarbeiter weiterleiten oder ihm helfen, einen HR-Fall zu erstellen.
Now Assist-Beschützer zur Laufzeit
Alle Kompetenzen, die Now Assist-Beschützer verwenden, entfernen personenbezogene Daten, bevor die Anforderung das LLM erreicht. Sie können auswählen, welche Arten von Daten erfasst werden. Weitere Informationen finden Sie unter Now Assist für Datenschutz konfigurieren.
Für Konversationskompetenzen verarbeitet die semantische Suche Anforderungen, um zu bestimmen, ob ein Filter erkannt wurde. In diesem Fall wird der Benutzer zu einem Virtual Agent -Thema weitergeleitet, in dem er gefragt wird, ob er einen HR-Fall erstellen oder mit einem Service Desk-Mitarbeiter sprechen möchte.
Für die Generierung von Katalogelementen und Service Desk-Mitarbeiter-Kompetenzen wie Zusammenfassung und Lösungshinweisgenerierung werden Schutzmaßnahmen für Offensivität und Eingabeaufforderungsinjektionen für Eingaben und Ausgaben von Anforderungen ausgeführt. Wenn einer der beiden erkannt wird, protokolliert Now Assist Bucket die Anforderung. Wenn Sie diesen Inhalt blockiert haben, wird eine Standardfehlermeldung angezeigt, und der Anwender sieht das Ergebnis der Anforderung nicht.
Sicherheitskategorien
|
Kategorie |
Kategorie-ID |
Beschreibung |
|---|---|---|
|
Toxische Inhalte |
O1 |
Sollte nicht: Hassreden fördern, zu Gewalt wie Kindesmissbrauch oder Mobbing anstacheln oder sich an persönlichen Angriffen oder Belästigungen beteiligen. Kann: Diskutieren Sie zu Schulungszwecken über die Auswirkungen von schädlichen Inhalten und gesellschaftliche Probleme. |
|
Unfaire Darstellung |
O2 |
Sollte nicht: Zur Aufrechterhaltung von Klischees beitragen oder Diskriminierung oder Voreingenommenheit fördern Kann: Probleme der Repräsentation besprechen und Bewusstsein und Inklusion fördern. |
|
Pornografische Inhalte |
O3 |
Sollte nicht: Zeigen Sie explizit lesbisches Material oder Inhalte, die für Minderjährigen unangemessen sind, einschließlich Policy, Erotik-Chat und sexuelle Aktivität. Kann: Bildungsdiskussionen zu Themen im Zusammenhang mit sexueller Identität und Einwilligung anbieten |
|
Erosion des Vertrauens in öffentliche Informationen |
O4 |
Sollte nicht: Die Verbreitung von Falschinformationen oder Desinformationen, die das Vertrauen der Öffentlichkeit unterminieren, z. B. irreführende medizinische Ratschläge, illegale Drogen und Ratschläge. Kann: Fehlinformationstrends kritisch analysieren und über Medienkompetenz informieren. |
|
Verbreitung falscher Vorstellungen/Anschauungen |
O5 |
Sollte nicht: Verbreiten Sie unbestätigte, irreführende Informationen, Verschwörungstheoren, wissenschaftliche Leugnung, Geschichtsrevision oder Inhalte, die zu Extremisierungen führen könnten. Kann: Kritische Analysen bereitstellen und häufige Missverständnisse und falsche Annahmen entlarven. |
|
Riskante Finanzpraktiken |
O6 |
Sollte nicht: Förderung unethischer Handelspraktiken wie Multi-Level-Marketing, täuschende Kreditvergabepraktiken oder Glücksspiel. Kann: Aufklären über verbundene Risiken, ethische Kreditvergabe, verantwortliches Spiel, Compliance mit Handelsbestimmungen und faire Geschäftspraktiken. |
|
Handel und Compliance |
O7 |
Sollte nicht: in Arbeitsfragen verwickeln, sich an unethischen Handelsbeziehungen beteiligen, zu unfairen Arbeitspraktiken beitragen oder betrügerische Handelspraktiken fördern Kann: Bereitstellung von Informationen und Einblicken in Arbeitsprobleme, ethische Handelspraktiken, Handels-Compliance und faires Geschäftsgebaren. |
|
Verbreitung gefährlicher Informationen |
O8 |
Sollte nicht: Verbreitung von Falschmeldungen, Verbreitung von Social-Media-Gerüchten, Offenlegung von Regierungsgeheimnissen oder Weitergabe von Finanzdaten und anderen Inhalten, die zu öffentlicher Panik oder zur nationalen Sicherheit beitragen Kann: Über die Gefahren solcher Informationen aufklären und deren Sicherheit fördern |
|
Verletzung der Privatsphäre |
O9 |
Sollte nicht: Doxxing, nicht autorisierte Datenfreigabe oder Überwachung wie das Ableiten oder Durchsickern privater Informationen betreffen. Kann: Diskutieren Sie die Bedeutung von Datenschutzrechten und digitaler Sicherheit. |
|
Sicherheitsbedrohungen |
O10 |
Sollte nicht: Verbreitung von Malware oder Förderung vonTerrorismus oder anderen Sicherheitsbedrohungen wie Generierung vonWaffen, Cyberangriffe oder schädliche Chemikalien. Kann: Bereitstellung von Informationen und Methoden zur Identifizierung und Minimierung von Sicherheitsbedrohungen |
|
Verleumdung |
O11 |
Sollte nicht: Falsche Aussagen veröffentlichen, die Personen, Gruppen oder Organisationen schaden. Kann: Sich mit den rechtlichen und ethischen Aspekten von Verleumdung und freier Meinungsäußerung befassen |
|
Betrugs- oder Täuschungshandlung |
O12 |
Sollte nicht: Begehen Sie akademische Unredlichkeit, begehen Sie Betrügereien, fördern Sie Pseudo-Arzneimittel oder verbreiten Sie falsche Online-Inhalte. Der Inhalt darf keine Personen täuschen oder betrügen. Kann: Schulungen zum Erkennen und Verhindern betrügerischer Aktivitäten |
|
Einflussoperationen |
O13 |
Sollte nicht: Die öffentliche Meinung manipulieren oder den gesellschaftlichen Einklang für politische oder ideologische Zwecke wie Überwachung oder Wahlkampagne stören. Kann: Art und Auswirkung von Einflussnahmevorgängen analysieren und darüber informieren. |
|
Rechtswidrige Handlungen |
O14 |
Sollte nicht: Die Beteiligung an illegalen Handlungen wie Straftaten oder Tererror fördern oder diesbezügliche Anleitungen geben. Kann: Über die Konsequenzen und die Verhinderung illegaler Aktivitäten aufklären. |
|
Überredung und Manipulation |
O15 |
Sollte nicht: Überredungs- oder Manipulationstechniken verwenden, die Selbstverletzung, geistige Manipulation oder jede Form der Schädigung des Wohlergehens von Personen fördern Kann: Über das Erkennen und Abwehren von Manipulation aufklären und Unterstützung und Ressourcen für Betroffene anbieten. |
|
Verletzung persönlichen Eigentums |
O16 |
Sollte nicht: Verletzung des persönlichen Eigentums einer Person durch böswillige Nachahmung, Plagiierung, Urheberrechtsverletzung und Identitätsfälschung. Kann: Das Bewusstsein und die Diskussionen über den Schutz von persönlichem Eigentum und die Verhinderung solcher Verstöße fördern. |
Kompetenzen, die Now Assist Guard unterstützen
| Workflow | Unterstützte Kompetenzen nach Produkt |
|---|---|
| Technologie | |
| Kunde |
|
| Mitarbeiter | |
| Ersteller | |
| Finanzwesen und Lieferkette |
Now Assist Guardian Analytics
Überwachen Sie die Leistung von Schutzmaßnahmen, die durch Now Assist Guardianaktiviert werden.
Das Analytics-Dashboard Now Assist Guardian hilft Administratoren, die Effektivität von anstößigen Inhalten und Schutzmaßnahmen für die Eingabeaufforderung bei der Nachverfolgung und Analyse von Anforderungen, die an große Sprachmodelle (LLM) gesendet werden, und deren Antworten zu überwachen und zu bewerten.
- Durchschnittliche Latenz als Ergebnis aktiver anstößiger Inhalte und Einschleusungsschutzmaßnahmen. Eine hohe Latenz kann eine erhöhte Aktivität von Schutzmaßnahmen im Zeitraum bedeuten.
- Anzahl und Prozentsatz der anstößigen Inhalte und der Eingabeaufforderungsinjektionen.
- Kompetenzen, bei denen anstößige Inhalte und Eingabeaufforderungsinjektionen erkannt wurden.
Wenden Sie die Filter im Dashboard an, um die Schutzmaßnahmenaktivität für Kompetenzen in einem Datumsbereich anzuzeigen. Informationen zu den Daten und Berechnungen hinter den einzelnen Indikatoren finden Sie unter Now Assist Analytics Dashboard-Indikatordetails.
Indikatoren für anstößige Inhalte
- Von Schutzmaßnahmen hinzugefügte Latenz
- In diesem Bereich des Dashboards wird die durchschnittliche Latenz als Ergebnis des aktiven Schutzplans für anstößige Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
Abbildung : 2. Von Schutzmaßnahmen hinzugefügter Latenzindikator - Als anstößig gekennzeichneter Prozentsatz
- In diesem Bereich des Dashboards wird der Prozentsatz der Anforderungen und Antworten an den und vom LLM-Service angezeigt, die für anstößige Inhalte gekennzeichnet sind.
Abbildung : 3. Prozentsatz, der als anstößiger Indikator gekennzeichnet ist - Gesamtzahl der anstößigen Inhalte
- In diesem Bereich des Dashboards wird die Gesamtanzahl der anstößigen Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
Abbildung : 4. Indikator für die Gesamtzahl der anstößigen Inhalte - Kategorien von anstößigen Inhalten
- In diesem Bereich des Dashboards wird eine Aufgliederung der anstößigen Inhalte nach Kategorien angezeigt. Wenn Inhalte in mehr als einer Kategorie als anstößig eingestuft werden, z. B. toxisch und verleumderisch, wird das Vorkommen für beide Kategorien einzeln gezählt. Weitere Informationen zu anstößigen Inhaltskategorien finden Sie unter Now Assist Guardian.
Abbildung : 5. Kategorien des Indikators für anstößige Inhalte - Vorkommen anstößiger Inhalte nach Kompetenz
- In diesem Bereich des Dashboards wird die Anzahl der Vorkommen von anstößigen Inhalten im Zeitverlauf anhand der Kompetenzen angezeigt, in denen der Inhalt erkannt wurde.
Abbildung : 6. Vorkommen anstößiger Inhalte nach Kompetenzindikator
Indikatoren für Aufforderungsinjektionen
- Von Schutzmaßnahmen hinzugefügte Latenz
- In diesem Bereich des Dashboards wird die durchschnittliche Latenz als Ergebnis des aktiven Schutzmaßnahmenschutzes für die Eingabeaufforderungsinjektion für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
Abbildung : 7. Von Schutzmaßnahmen hinzugefügter Latenzindikator - Prozentsatz, der als sofortige Einschleusung gekennzeichnet ist
- In diesem Bereich des Dashboards wird der Prozentsatz der Anforderungen und Antworten an den und vom LLM-Service angezeigt, die für anstößige Inhalte gekennzeichnet sind.
Abbildung : 8. Prozentsatz, der als Indikator für die Aufforderungsinjektion gekennzeichnet ist - Gesamtzahl der Vorkommen der Eingabeaufforderungsinjektion
- In diesem Bereich des Dashboards wird die Gesamtanzahl der anstößigen Inhalte für die ausgewählten Kompetenzen und den ausgewählten Datumsbereich angezeigt.
Abbildung : 9. Indikator für das Vorkommen der Prompteinschleusung insgesamt - Aufforderungsinjektionsvorkommen nach Kompetenz
- In diesem Bereich des Dashboards wird die Anzahl der Aufforderungseinschleusungen im Zeitverlauf nach den Kompetenzen angezeigt, für die Aufforderungseinschleusungen erkannt wurden.
Abbildung : 10. Aufforderungsinjektionsvorkommen nach Kompetenzindikator