Now Assist Guardian
Llama 3.1 でビルドされた Now Assist ガーディアン を有効にして、生成 AI で作成されたコンテンツを監視および評価し、ユーザーエクスペリエンスの保護と強化に役立てます。
Now Assist Guardian の概要
生成AIは新しいテクノロジーです。人間の相互作用は予測不可能であり、大規模言語モデル (LLM) によって生成される出力は確率的であり、確率に基づいています。同じ入力を 2 回実行すると、2 つの異なる出力が生成される場合があります。リスク管理は、インスタンスに生成 AI を実装する方法を決定する上で重要な要素です。
Now Assist Guardian は、LLM に送信された要求とその応答を監視して、ユーザー、ユーザー、データの保護に役立てます。監視されるコンテンツには、攻撃的または有害なコンテンツ、プロンプトインジェクション試行、フィルタリングされた件名の 3 種類があります。不快なコンテンツとプロンプトインジェクションの試行については、アクティブ化された場合にログが生成されますが、コンテンツをブロックすることもできます。フィルターがアクティブになっている場合、フィルターが適用される検出されたコンテンツは、ユーザーを 仮想エージェント の機密性検出:フォールバックトピックにリダイレクトします。
ガードレール
- 不快なコンテンツ
- 生成 AI の確率的な性質により、LLM が不快なコンテンツを生成する可能性があります。要求の入力に不快なコンテンツが含まれている場合、応答でも不快なコンテンツが発生する可能性があります。不快なコンテンツの例としては、有害な言葉、中傷的な言葉、詐欺的な言葉などがあります。
- プロンプトインジェクション
- プロンプトインジェクションは、攻撃者が LLM の通常の指示を上書きして制限された情報にアクセスしたり、予期しない動作を引き出したりするセキュリティ攻撃の一種です。プロンプトインジェクション検出は、ロールプレイング、言い換え、繰り返し、他の指示を無視する指示、説得など、さまざまなタイプのプロンプトインジェクションテクニックでトレーニングされたLLMに基づいています。ただし、モデルの確率的な性質と進化するプロンプトインジェクション技術により、プロンプトインジェクションの試行が Now Assist Guardian によって識別されない場合があります。
- フィルター対象
- 職場の安全性や従業員の報酬などの特定のテーマは、生成 AI の会話に最適ではない場合があります。このような種類の件名が会話に含まれているかどうかを検出するフィルターをアクティブ化して、ユーザーを機密性検出:フォールバック 仮想エージェント トピックにリダイレクトできます。
ログ記録とブロック
Now Assist Guardian は要求を監視し、この種の資料が検出されたときにログに記録できます。ログには、[設定] タブの Now Assist Guardian ページの Now Assist アドミンコンソールからアクセスできます。ログに含まれるデータには、ユーザーフィードバックなど、不快なコンテンツを含む要求と会話に関する情報が含まれます。
ログ記録に加えて、不快なコンテンツをブロックしたり、インジェクションの試行を促したりすることもできます。材料が検出され、ブロッキングがオンになっている場合は、生成された応答の代わりに標準のエラーメッセージが表示されます。このメッセージは、要求を完了できなかったことを示す標準的なエラーメッセージであり、AI が生成した内容は表示されません。
コンテンツのブロックを決定する前に、しばらくログを監視して、これらの問題が自分とユースケースにどの程度蔓延しているかを判断できます。
機密性の高いフィルター済みトピックのリダイレクト
フィルターが適用されるトピックが特定されると、ユーザーはフィルターのタイプに応じて別の 仮想エージェント トピックにリダイレクトされます。従業員の個人的な問題などの件名のフィルターは、「機密性検出:フォールバック」トピックにリダイレクトされます。このトピックでは、ユーザーをライブエージェントにリダイレクトしたり、HR ケースの作成を支援したりできます。
実行時の Now Assist Guardian
Now Assist Guardian を使用するすべてのスキルは、要求が LLM に到達する前に個人識別可能情報 (PII) を削除します。取得するデータの種類を選択できます。詳細については、「 Now Assist for Data Privacy の構成 」を参照してください。
会話型スキルの場合、セマンティック検索は要求を処理して、フィルターが検出されたかどうかを判断します。その場合、ユーザーは HR ケースを作成するかライブエージェントと話すかを尋ねる 仮想エージェント トピックにリダイレクトされます。
要約や解決メモの生成などのカタログアイテムの生成とエージェントスキルでは、要求の入力と出力に対して攻撃性とプロンプトインジェクションガードレールが実行されます。いずれかが検出された場合、Now Assist Guardian は要求をログに記録します。このコンテンツのブロックを選択した場合は、標準エラーメッセージが表示され、ユーザーには要求の結果が表示されません。
安全カテゴリ
|
カテゴリ |
カテゴリ ID |
説明 |
|---|---|---|
|
有害コンテンツ |
O1 |
禁止事項: ヘイトスピーチを助長したり、児童虐待やいじめなどの暴力を扇動したり、個人攻撃や嫌がらせを行ったりすること。 可能な操作: 教育目的で有害なコンテンツに関連する影響と社会問題について話し合います。 |
|
不公平な表現 |
O2 |
すべきでないこと:固定観念を永続させたり、差別や偏見を助長したりすること。 できること: 表現の問題について話し合い、意識と包括性を促進します。 |
|
アダルトコンテンツ |
O3 |
禁止事項: ポルノ、性的なチャット、性行為など、性的に露骨な素材や未成年者に不適切なコンテンツを表示すること。 可能な操作: セクシュアリティと同意に関連するトピックについて教育的なディスカッションを行います。 |
|
公開情報への信頼の毀損 |
O4 |
すべきではないこと:誤解を招く医学的アドバイス、違法薬物、アドバイスなど、国民の信頼を損なう誤った情報や偽情報を広めること。 可能な操作: 誤情報の傾向を批判的に分析し、メディア リテラシーについて教育します。 |
|
誤解や誤った信念を広める |
O5 |
すべきでないこと:検証されていない、誤解を招く情報、陰謀論、科学否定主義、歴史修正主義、または過激化につながる可能性のあるコンテンツを広める。 できる: 一般的な誤解や誤った信念を批判的に分析し、誤りを暴く。 |
|
リスクの高い金融慣行 |
O6 |
すべきではないこと: マルチ商法、詐欺的な貸付行為、ギャンブルなどの非倫理的な取引慣行を助長すること。 可能な操作:関連するリスク、倫理的な貸付、責任あるギャンブル、貿易コンプライアンス、公正なビジネス慣行について教育します。 |
|
貿易とコンプライアンス |
O7 |
すべきでないこと:労働問題に関与したり、非倫理的な貿易行為に関与したり、不当な労働慣行に貢献したり、不正な取引慣行を助長したりすること。 可能:労働問題、倫理的な貿易慣行、貿易コンプライアンス、公正なビジネス行動に関する情報とインサイトを提供します。 |
|
危険情報の流布 |
O8 |
すべきでないこと:フェイクニュースを広めたり、ソーシャルメディアの噂を広めたり、政府の機密を開示したり、金融データや国民のパニックや国家安全保障に寄与するその他のコンテンツを漏洩したりすること。 できること:そのような情報の危険性について教育し、安全を促進します。 |
|
プライバシー侵害 |
O9 |
すべきでないこと:晒し行為、不正なデータ共有、個人情報の推測や漏洩などの監視を伴うもの。 可能な操作: プライバシー権とデジタル セキュリティの重要性について話し合います。 |
|
セキュリティの脅威 |
O10 |
禁止事項: マルウェアを拡散したり、テロリズムやその他のセキュリティ上の脅威 (兵器の生成、サイバー攻撃、化学的危害など) を助長したりすること。 可能:セキュリティ上の脅威を特定して軽減するための情報と方法を提供します。 |
|
中傷 |
O11 |
すべきではない:個人、グループ、または組織に損害を与える虚偽の陳述を公表すること。 可能: 名誉毀損と言論の自由の法的および倫理的側面を探ります。 |
|
詐欺または欺瞞行為 |
O12 |
すべきでないこと:学問的不正行為、詐欺の実行、疑似医薬品の宣伝、または偽のオンラインコンテンツの拡散。コンテンツは、個人を欺いたり、詐欺したりしてはなりません。 可能な操作: 不正行為の認識と防止について教育します。 |
|
影響操作 |
O13 |
すべきでないこと:監視やキャンペーンなどの政治的またはイデオロギー的な目的で世論を操作したり、社会の調和を乱したりすること。 可能な操作:影響操作の性質と影響について分析し、教育します。 |
|
違法行為 |
O14 |
禁止事項: 犯罪やテロなどの違法行為への関与を助長したり、ガイダンスを提供したりすること。 可能な操作: 違法行為の結果と防止について教育します。 |
|
説得と操作 |
O15 |
すべきでないこと:自傷行為、心理的操作、または個人の幸福に対するあらゆる形態の危害を促進する説得または操作技術を含む。 できること:操作を認識して抵抗することについて教育し、影響を受ける人々にサポートとリソースを提供します。 |
|
個人財産の侵害 |
O16 |
すべきではないこと:悪意のある模倣、盗作、著作権侵害、身元の偽造など、個人の私有財産を侵害すること。 可能なこと:個人の財産を尊重し、そのような違反を防ぐことについての認識と議論を促進します。 |
Now Assist Guardian をサポートするスキル
| ワークフロー | 製品でサポートされているスキル |
|---|---|
| テクノロジー | |
| カスタマー | |
| 従業員 | |
| 作成者 | |
| ファイナンスとサプライチェーン |
Now Assist ガーディアン 解析学
Now Assist ガーディアンによって有効化されたガードレールのパフォーマンスを監視します。
Now Assist ガーディアンアナリティクスダッシュボードは、アドミニストレーターが大規模言語モデル (LLM) に送信された要求とその応答を追跡および分析する際に、不快なコンテンツの有効性を監視および評価し、プロンプトインジェクションガードレールを作成するのに役立ちます。
- アクティブな不快なコンテンツとプロンプトインジェクションガードレールの結果としての平均レイテンシ。レイテンシーが高いということは、期間中のガードレール活動の増加を意味する可能性があります。
- 不快なコンテンツとプロンプトインジェクションの発生回数と割合。
- 不快なコンテンツとプロンプトインジェクションの発生が検出されたスキル。
ダッシュボードのフィルターを適用して、日付範囲内のスキルのガードレールアクティビティを表示します。各インジケーターの背後にあるデータと計算の詳細については、 Now Assist アナリティクス ダッシュボードインジケーターの詳細 を参照してください。
不快なコンテンツインジケーター
- ガードレールによって遅延が加わる
- ダッシュボードのこの領域には、選択したスキルと日付範囲における、アクティブな不快なコンテンツガードレールの結果としての平均レイテンシが表示されます。
図 : 2. ガードレール追加された遅延インジケーター - 不快としてフラグが立てられた割合
- ダッシュボードのこの領域には、不快なコンテンツとしてフラグが立てられた、LLM サービスとの間で送受信された要求と応答の割合が表示されます。
図 : 3. 不快なインジケーターとしてフラグが立てられた割合 - 不快なコンテンツの合計発生件数
- ダッシュボードのこの領域には、選択したスキルと日付範囲で不快なコンテンツが発生した合計回数が表示されます。
図 : 4. 不快なコンテンツの発生インジケーターの合計数 - 不快なコンテンツのカテゴリ
- ダッシュボードのこの領域には、不快なコンテンツの発生の内訳がカテゴリ別に表示されます。コンテンツが複数のカテゴリで攻撃的であると見なされた場合(有害で中傷的など)、その発生は両方のカテゴリに個別にカウントされます。不快なコンテンツのカテゴリの詳細については、「 Now Assist Guardian」を参照してください。
図 : 5. 不快なコンテンツインジケーターのカテゴリ - スキル別の不快なコンテンツの発生件数
- ダッシュボードのこの領域には、コンテンツが検出されたスキル別の経時的な不快なコンテンツの発生回数が表示されます。
図 : 6. スキルインジケーター別の不快なコンテンツの発生
プロンプトインジェクションインジケーター
- ガードレールによって遅延が加わる
- ダッシュボードのこの領域には、選択したスキルと日付範囲のアクティブなプロンプトインジェクションガードレールの結果としての平均レイテンシが表示されます。
図 : 7. ガードレール追加された遅延インジケーター - プロンプトインジェクションとしてフラグが付けられた割合
- ダッシュボードのこの領域には、不快なコンテンツとしてフラグが立てられた、LLM サービスとの間で送受信された要求と応答の割合が表示されます。
図 : 8. プロンプトインジェクションインジケーターとしてフラグが付けられた割合 - プロンプトインジェクション合計発生件数
- ダッシュボードのこの領域には、選択したスキルと日付範囲で不快なコンテンツが発生した合計回数が表示されます。
図 : 9. プロンプトインジェクション合計発生インジケーター - スキル別のプロンプトインジェクション発生件数
- ダッシュボードのこの領域には、プロンプトインジェクションの試行が検出されたスキル別の経時的なプロンプトインジェクションの発生回数が表示されます。
図 : 10. スキルインジケーター別のプロンプトインジェクション発生