Now Assist Guardian

  • リリースバージョン: Yokohama
  • 更新日 2025年01月30日
  • 所要時間:13分
  • Llama 3.1 でビルドされた Now Assist ガーディアン を有効にして、生成 AI で作成されたコンテンツを監視および評価し、ユーザーエクスペリエンスの保護と強化に役立てます。

    Now Assist Guardian の概要

    生成AIは新しいテクノロジーです。人間の相互作用は予測不可能であり、大規模言語モデル (LLM) によって生成される出力は確率的であり、確率に基づいています。同じ入力を 2 回実行すると、2 つの異なる出力が生成される場合があります。リスク管理は、インスタンスに生成 AI を実装する方法を決定する上で重要な要素です。

    Now Assist Guardian は、LLM に送信された要求とその応答を監視して、ユーザー、ユーザー、データの保護に役立てます。監視されるコンテンツには、攻撃的または有害なコンテンツ、プロンプトインジェクション試行、フィルタリングされた件名の 3 種類があります。不快なコンテンツとプロンプトインジェクションの試行については、アクティブ化された場合にログが生成されますが、コンテンツをブロックすることもできます。フィルターがアクティブになっている場合、フィルターが適用される検出されたコンテンツは、ユーザーを 仮想エージェント の機密性検出:フォールバックトピックにリダイレクトします。

    ガードレール

    不快なコンテンツ
    生成 AI の確率的な性質により、LLM が不快なコンテンツを生成する可能性があります。要求の入力に不快なコンテンツが含まれている場合、応答でも不快なコンテンツが発生する可能性があります。不快なコンテンツの例としては、有害な言葉、中傷的な言葉、詐欺的な言葉などがあります。
    プロンプトインジェクション
    プロンプトインジェクションは、攻撃者が LLM の通常の指示を上書きして制限された情報にアクセスしたり、予期しない動作を引き出したりするセキュリティ攻撃の一種です。プロンプトインジェクション検出は、ロールプレイング、言い換え、繰り返し、他の指示を無視する指示、説得など、さまざまなタイプのプロンプトインジェクションテクニックでトレーニングされたLLMに基づいています。ただし、モデルの確率的な性質と進化するプロンプトインジェクション技術により、プロンプトインジェクションの試行が Now Assist Guardian によって識別されない場合があります。
    フィルター対象
    職場の安全性や従業員の報酬などの特定のテーマは、生成 AI の会話に最適ではない場合があります。このような種類の件名が会話に含まれているかどうかを検出するフィルターをアクティブ化して、ユーザーを機密性検出:フォールバック 仮想エージェント トピックにリダイレクトできます。

    ログ記録とブロック

    Now Assist Guardian は要求を監視し、この種の資料が検出されたときにログに記録できます。ログには、[設定] タブの Now Assist Guardian ページの Now Assist アドミンコンソールからアクセスできます。ログに含まれるデータには、ユーザーフィードバックなど、不快なコンテンツを含む要求と会話に関する情報が含まれます。

    ログ記録に加えて、不快なコンテンツをブロックしたり、インジェクションの試行を促したりすることもできます。材料が検出され、ブロッキングがオンになっている場合は、生成された応答の代わりに標準のエラーメッセージが表示されます。このメッセージは、要求を完了できなかったことを示す標準的なエラーメッセージであり、AI が生成した内容は表示されません。

    コンテンツのブロックを決定する前に、しばらくログを監視して、これらの問題が自分とユースケースにどの程度蔓延しているかを判断できます。

    機密性の高いフィルター済みトピックのリダイレクト

    フィルターが適用されるトピックが特定されると、ユーザーはフィルターのタイプに応じて別の 仮想エージェント トピックにリダイレクトされます。従業員の個人的な問題などの件名のフィルターは、「機密性検出:フォールバック」トピックにリダイレクトされます。このトピックでは、ユーザーをライブエージェントにリダイレクトしたり、HR ケースの作成を支援したりできます。

    実行時の Now Assist Guardian

    Now Assist Guardian を使用するすべてのスキルは、要求が LLM に到達する前に個人識別可能情報 (PII) を削除します。取得するデータの種類を選択できます。詳細については、「 Now Assist for Data Privacy の構成 」を参照してください。

    会話型スキルの場合、セマンティック検索は要求を処理して、フィルターが検出されたかどうかを判断します。その場合、ユーザーは HR ケースを作成するかライブエージェントと話すかを尋ねる 仮想エージェント トピックにリダイレクトされます。

    感度フィルターガードレール付きの実行時の Now Assist Guardian を示すインフォグラフィック

    要約や解決メモの生成などのカタログアイテムの生成とエージェントスキルでは、要求の入力と出力に対して攻撃性とプロンプトインジェクションガードレールが実行されます。いずれかが検出された場合、Now Assist Guardian は要求をログに記録します。このコンテンツのブロックを選択した場合は、標準エラーメッセージが表示され、ユーザーには要求の結果が表示されません。

    攻撃性とセキュリティガードレールを備えた実行時の Now Assist Guardian を示すインフォグラフィック

    安全カテゴリ

    以下に、不快であるとフラグが付けられる可能性がある、またはセキュリティ上のリスクをもたらす可能性のあるさまざまな種類のコンテンツを示します。さまざまなガードレールの Now Assist Guardian ログで捕捉されているカテゴリを特定できます。

    カテゴリ

    カテゴリ ID

    説明

    有害コンテンツ

    O1

    禁止事項: ヘイトスピーチを助長したり、児童虐待やいじめなどの暴力を扇動したり、個人攻撃や嫌がらせを行ったりすること。

    可能な操作: 教育目的で有害なコンテンツに関連する影響と社会問題について話し合います。

    不公平な表現

    O2

    すべきでないこと:固定観念を永続させたり、差別や偏見を助長したりすること。

    できること: 表現の問題について話し合い、意識と包括性を促進します。

    アダルトコンテンツ

    O3

    禁止事項: ポルノ、性的なチャット、性行為など、性的に露骨な素材や未成年者に不適切なコンテンツを表示すること。

    可能な操作: セクシュアリティと同意に関連するトピックについて教育的なディスカッションを行います。

    公開情報への信頼の毀損

    O4

    すべきではないこと:誤解を招く医学的アドバイス、違法薬物、アドバイスなど、国民の信頼を損なう誤った情報や偽情報を広めること。

    可能な操作: 誤情報の傾向を批判的に分析し、メディア リテラシーについて教育します。

    誤解や誤った信念を広める

    O5

    すべきでないこと:検証されていない、誤解を招く情報、陰謀論、科学否定主義、歴史修正主義、または過激化につながる可能性のあるコンテンツを広める。

    できる: 一般的な誤解や誤った信念を批判的に分析し、誤りを暴く。

    リスクの高い金融慣行

    O6

    すべきではないこと: マルチ商法、詐欺的な貸付行為、ギャンブルなどの非倫理的な取引慣行を助長すること。

    可能な操作:関連するリスク、倫理的な貸付、責任あるギャンブル、貿易コンプライアンス、公正なビジネス慣行について教育します。

    貿易とコンプライアンス

    O7

    すべきでないこと:労働問題に関与したり、非倫理的な貿易行為に関与したり、不当な労働慣行に貢献したり、不正な取引慣行を助長したりすること。

    可能:労働問題、倫理的な貿易慣行、貿易コンプライアンス、公正なビジネス行動に関する情報とインサイトを提供します。

    危険情報の流布

    O8

    すべきでないこと:フェイクニュースを広めたり、ソーシャルメディアの噂を広めたり、政府の機密を開示したり、金融データや国民のパニックや国家安全保障に寄与するその他のコンテンツを漏洩したりすること。

    できること:そのような情報の危険性について教育し、安全を促進します。

    プライバシー侵害

    O9

    すべきでないこと:晒し行為、不正なデータ共有、個人情報の推測や漏洩などの監視を伴うもの。

    可能な操作: プライバシー権とデジタル セキュリティの重要性について話し合います。

    セキュリティの脅威

    O10

    禁止事項: マルウェアを拡散したり、テロリズムやその他のセキュリティ上の脅威 (兵器の生成、サイバー攻撃、化学的危害など) を助長したりすること。

    可能:セキュリティ上の脅威を特定して軽減するための情報と方法を提供します。

    中傷

    O11

    すべきではない:個人、グループ、または組織に損害を与える虚偽の陳述を公表すること。

    可能: 名誉毀損と言論の自由の法的および倫理的側面を探ります。

    詐欺または欺瞞行為

    O12

    すべきでないこと:学問的不正行為、詐欺の実行、疑似医薬品の宣伝、または偽のオンラインコンテンツの拡散。コンテンツは、個人を欺いたり、詐欺したりしてはなりません。

    可能な操作: 不正行為の認識と防止について教育します。

    影響操作

    O13

    すべきでないこと:監視やキャンペーンなどの政治的またはイデオロギー的な目的で世論を操作したり、社会の調和を乱したりすること。

    可能な操作:影響操作の性質と影響について分析し、教育します。

    違法行為

    O14

    禁止事項: 犯罪やテロなどの違法行為への関与を助長したり、ガイダンスを提供したりすること。

    可能な操作: 違法行為の結果と防止について教育します。

    説得と操作

    O15

    すべきでないこと:自傷行為、心理的操作、または個人の幸福に対するあらゆる形態の危害を促進する説得または操作技術を含む。

    できること:操作を認識して抵抗することについて教育し、影響を受ける人々にサポートとリソースを提供します。

    個人財産の侵害

    O16

    すべきではないこと:悪意のある模倣、盗作、著作権侵害、身元の偽造など、個人の私有財産を侵害すること。

    可能なこと:個人の財産を尊重し、そのような違反を防ぐことについての認識と議論を促進します。

    Now Assist Guardian をサポートするスキル

    表 : 1. ワークフローでサポートされているスキル
    ワークフロー 製品でサポートされているスキル
    テクノロジー
    Now Assist for Configuration Management Database (CMDB)
    Now Assist for IT Operations Management (ITOM)
    Now Assist for IT Service Management (ITSM)
    Now Assist for Security Incident Response
    を診断 サービスグラフコネクタ
    Now Assist for Strategic Portfolio Management (SPM)
    カスタマー
    Now Assist for Customer Service Management (CSM)
    Now Assist for Field Service Management (FSM)
    Now Assist for Financial Services Operations (FSO)
    Now Assist for PSDS
    従業員
    Now Assist for Health and Safety
    衛生安全インシデントの要約
    Now Assist for HR Service Delivery (HRSD)
    Now Assist for Legal Service Delivery (LSD)
    法務事項の要約
    法務要求の要約
    Now Assist in Contract Managementのスキル:
    作成者
    Now Assist for Creator
    カタログアイテムの生成
    ファイナンスとサプライチェーン
    Now Assist for Accounts Payable Operations (APO)
    請求書ケースの要約
    Now Assist for Supplier Lifecycle Operations (SLO)
    サプライヤーケースの要約
    Now Assist for Sourcing and Procurement Operations (SPO)
    の履行者の要約 ソーシングと調達オペレーション

    Now Assist ガーディアン 解析学

    Now Assist ガーディアンによって有効化されたガードレールのパフォーマンスを監視します。

    Now Assist ガーディアンアナリティクスダッシュボードは、アドミニストレーターが大規模言語モデル (LLM) に送信された要求とその応答を追跡および分析する際に、不快なコンテンツの有効性を監視および評価し、プロンプトインジェクションガードレールを作成するのに役立ちます。

    図 : 1. Now Assist ガーディアン ダッシュボードページ
    プロンプトインジェクションダッシュボードページ
    Now Assist ガーディアンダッシュボードページのインジケーターは、次のインサイトを提供します。
    • アクティブな不快なコンテンツとプロンプトインジェクションガードレールの結果としての平均レイテンシ。レイテンシーが高いということは、期間中のガードレール活動の増加を意味する可能性があります。
    • 不快なコンテンツとプロンプトインジェクションの発生回数と割合。
    • 不快なコンテンツとプロンプトインジェクションの発生が検出されたスキル。

    ダッシュボードのフィルターを適用して、日付範囲内のスキルのガードレールアクティビティを表示します。各インジケーターの背後にあるデータと計算の詳細については、 Now Assist アナリティクス ダッシュボードインジケーターの詳細 を参照してください。

    不快なコンテンツインジケーター

    ガードレールによって遅延が加わる
    ダッシュボードのこの領域には、選択したスキルと日付範囲における、アクティブな不快なコンテンツガードレールの結果としての平均レイテンシが表示されます。
    図 : 2. ガードレール追加された遅延インジケーター
    プロンプトインジェクションのガードレールレイテンシ。
    不快としてフラグが立てられた割合
    ダッシュボードのこの領域には、不快なコンテンツとしてフラグが立てられた、LLM サービスとの間で送受信された要求と応答の割合が表示されます。
    図 : 3. 不快なインジケーターとしてフラグが立てられた割合
    不快なコンテンツの発生率。
    不快なコンテンツの合計発生件数
    ダッシュボードのこの領域には、選択したスキルと日付範囲で不快なコンテンツが発生した合計回数が表示されます。
    図 : 4. 不快なコンテンツの発生インジケーターの合計数
    不快なコンテンツの合計発生件数。
    不快なコンテンツのカテゴリ
    ダッシュボードのこの領域には、不快なコンテンツの発生の内訳がカテゴリ別に表示されます。コンテンツが複数のカテゴリで攻撃的であると見なされた場合(有害で中傷的など)、その発生は両方のカテゴリに個別にカウントされます。不快なコンテンツのカテゴリの詳細については、「 Now Assist Guardian」を参照してください。
    図 : 5. 不快なコンテンツインジケーターのカテゴリ
    不快なコンテンツインジケーターのカテゴリ。
    スキル別の不快なコンテンツの発生件数
    ダッシュボードのこの領域には、コンテンツが検出されたスキル別の経時的な不快なコンテンツの発生回数が表示されます。
    図 : 6. スキルインジケーター別の不快なコンテンツの発生
    スキル別の不快なコンテンツの発生。

    プロンプトインジェクションインジケーター

    ガードレールによって遅延が加わる
    ダッシュボードのこの領域には、選択したスキルと日付範囲のアクティブなプロンプトインジェクションガードレールの結果としての平均レイテンシが表示されます。
    図 : 7. ガードレール追加された遅延インジケーター
    ガードレールで追加された遅延インジケーター。
    プロンプトインジェクションとしてフラグが付けられた割合
    ダッシュボードのこの領域には、不快なコンテンツとしてフラグが立てられた、LLM サービスとの間で送受信された要求と応答の割合が表示されます。
    図 : 8. プロンプトインジェクションインジケーターとしてフラグが付けられた割合
    プロンプトインジェクションインジケーターとしてフラグが付けられたパーセンテージ。
    プロンプトインジェクション合計発生件数
    ダッシュボードのこの領域には、選択したスキルと日付範囲で不快なコンテンツが発生した合計回数が表示されます。
    図 : 9. プロンプトインジェクション合計発生インジケーター
    プロンプトインジェクション合計発生件数
    スキル別のプロンプトインジェクション発生件数
    ダッシュボードのこの領域には、プロンプトインジェクションの試行が検出されたスキル別の経時的なプロンプトインジェクションの発生回数が表示されます。
    図 : 10. スキルインジケーター別のプロンプトインジェクション発生
    スキルインジケーター別のプロンプトインジェクション発生。