Now Assist Guardian

Yokohama AI を有効にする

Release

yokohama

ft:locale

ja-JP

ft:publication_title

Yokohama AI を有効にする

ft:clusterId

platai

bundleId

platai

workflow

Platform

Now Assist Guardian

リリースバージョン: Yokohama

更新日 2025年01月30日

所要時間：13分

Llama 3.1 でビルドされた Now Assist ガーディアンを有効にして、生成 AI で作成されたコンテンツを監視および評価し、ユーザーエクスペリエンスの保護と強化に役立てます。

Now Assist Guardian の概要

生成AIは新しいテクノロジーです。人間の相互作用は予測不可能であり、大規模言語モデル (LLM) によって生成される出力は確率的であり、確率に基づいています。同じ入力を 2 回実行すると、2 つの異なる出力が生成される場合があります。リスク管理は、インスタンスに生成 AI を実装する方法を決定する上で重要な要素です。

Now Assist Guardian は、LLM に送信された要求とその応答を監視して、ユーザー、ユーザー、データの保護に役立てます。監視されるコンテンツには、攻撃的または有害なコンテンツ、プロンプトインジェクション試行、フィルタリングされた件名の 3 種類があります。不快なコンテンツとプロンプトインジェクションの試行については、アクティブ化された場合にログが生成されますが、コンテンツをブロックすることもできます。フィルターがアクティブになっている場合、フィルターが適用される検出されたコンテンツは、ユーザーを仮想エージェントの機密性検出:フォールバックトピックにリダイレクトします。

ガードレール

不快なコンテンツ: 生成 AI の確率的な性質により、LLM が不快なコンテンツを生成する可能性があります。要求の入力に不快なコンテンツが含まれている場合、応答でも不快なコンテンツが発生する可能性があります。不快なコンテンツの例としては、有害な言葉、中傷的な言葉、詐欺的な言葉などがあります。
プロンプトインジェクション: プロンプトインジェクションは、攻撃者が LLM の通常の指示を上書きして制限された情報にアクセスしたり、予期しない動作を引き出したりするセキュリティ攻撃の一種です。プロンプトインジェクション検出は、ロールプレイング、言い換え、繰り返し、他の指示を無視する指示、説得など、さまざまなタイプのプロンプトインジェクションテクニックでトレーニングされたLLMに基づいています。ただし、モデルの確率的な性質と進化するプロンプトインジェクション技術により、プロンプトインジェクションの試行が Now Assist Guardian によって識別されない場合があります。
フィルター対象: 職場の安全性や従業員の報酬などの特定のテーマは、生成 AI の会話に最適ではない場合があります。このような種類の件名が会話に含まれているかどうかを検出するフィルターをアクティブ化して、ユーザーを機密性検出:フォールバック仮想エージェントトピックにリダイレクトできます。

ログ記録とブロック

Now Assist Guardian は要求を監視し、この種の資料が検出されたときにログに記録できます。ログには、[設定] タブの Now Assist Guardian ページの Now Assist アドミンコンソールからアクセスできます。ログに含まれるデータには、ユーザーフィードバックなど、不快なコンテンツを含む要求と会話に関する情報が含まれます。

ログ記録に加えて、不快なコンテンツをブロックしたり、インジェクションの試行を促したりすることもできます。材料が検出され、ブロッキングがオンになっている場合は、生成された応答の代わりに標準のエラーメッセージが表示されます。このメッセージは、要求を完了できなかったことを示す標準的なエラーメッセージであり、AI が生成した内容は表示されません。

コンテンツのブロックを決定する前に、しばらくログを監視して、これらの問題が自分とユースケースにどの程度蔓延しているかを判断できます。

機密性の高いフィルター済みトピックのリダイレクト

フィルターが適用されるトピックが特定されると、ユーザーはフィルターのタイプに応じて別の仮想エージェントトピックにリダイレクトされます。従業員の個人的な問題などの件名のフィルターは、「機密性検出:フォールバック」トピックにリダイレクトされます。このトピックでは、ユーザーをライブエージェントにリダイレクトしたり、HR ケースの作成を支援したりできます。

実行時の Now Assist Guardian

Now Assist Guardian を使用するすべてのスキルは、要求が LLM に到達する前に個人識別可能情報 (PII) を削除します。取得するデータの種類を選択できます。詳細については、「 Now Assist for Data Privacy の構成」を参照してください。

会話型スキルの場合、セマンティック検索は要求を処理して、フィルターが検出されたかどうかを判断します。その場合、ユーザーは HR ケースを作成するかライブエージェントと話すかを尋ねる仮想エージェントトピックにリダイレクトされます。

感度フィルターガードレール付きの実行時の Now Assist Guardian を示すインフォグラフィック

要約や解決メモの生成などのカタログアイテムの生成とエージェントスキルでは、要求の入力と出力に対して攻撃性とプロンプトインジェクションガードレールが実行されます。いずれかが検出された場合、Now Assist Guardian は要求をログに記録します。このコンテンツのブロックを選択した場合は、標準エラーメッセージが表示され、ユーザーには要求の結果が表示されません。

攻撃性とセキュリティガードレールを備えた実行時の Now Assist Guardian を示すインフォグラフィック

安全カテゴリ

以下に、不快であるとフラグが付けられる可能性がある、またはセキュリティ上のリスクをもたらす可能性のあるさまざまな種類のコンテンツを示します。さまざまなガードレールの Now Assist Guardian ログで捕捉されているカテゴリを特定できます。
カテゴリ	カテゴリ ID	説明
有害コンテンツ	O1	禁止事項: ヘイトスピーチを助長したり、児童虐待やいじめなどの暴力を扇動したり、個人攻撃や嫌がらせを行ったりすること。可能な操作: 教育目的で有害なコンテンツに関連する影響と社会問題について話し合います。
不公平な表現	O2	すべきでないこと:固定観念を永続させたり、差別や偏見を助長したりすること。できること: 表現の問題について話し合い、意識と包括性を促進します。
アダルトコンテンツ	O3	禁止事項: ポルノ、性的なチャット、性行為など、性的に露骨な素材や未成年者に不適切なコンテンツを表示すること。可能な操作: セクシュアリティと同意に関連するトピックについて教育的なディスカッションを行います。
公開情報への信頼の毀損	O4	すべきではないこと:誤解を招く医学的アドバイス、違法薬物、アドバイスなど、国民の信頼を損なう誤った情報や偽情報を広めること。可能な操作: 誤情報の傾向を批判的に分析し、メディアリテラシーについて教育します。
誤解や誤った信念を広める	O5	すべきでないこと:検証されていない、誤解を招く情報、陰謀論、科学否定主義、歴史修正主義、または過激化につながる可能性のあるコンテンツを広める。できる: 一般的な誤解や誤った信念を批判的に分析し、誤りを暴く。
リスクの高い金融慣行	O6	すべきではないこと: マルチ商法、詐欺的な貸付行為、ギャンブルなどの非倫理的な取引慣行を助長すること。可能な操作:関連するリスク、倫理的な貸付、責任あるギャンブル、貿易コンプライアンス、公正なビジネス慣行について教育します。
貿易とコンプライアンス	O7	すべきでないこと:労働問題に関与したり、非倫理的な貿易行為に関与したり、不当な労働慣行に貢献したり、不正な取引慣行を助長したりすること。可能:労働問題、倫理的な貿易慣行、貿易コンプライアンス、公正なビジネス行動に関する情報とインサイトを提供します。
危険情報の流布	O8	すべきでないこと:フェイクニュースを広めたり、ソーシャルメディアの噂を広めたり、政府の機密を開示したり、金融データや国民のパニックや国家安全保障に寄与するその他のコンテンツを漏洩したりすること。できること:そのような情報の危険性について教育し、安全を促進します。
プライバシー侵害	O9	すべきでないこと:晒し行為、不正なデータ共有、個人情報の推測や漏洩などの監視を伴うもの。可能な操作: プライバシー権とデジタルセキュリティの重要性について話し合います。
セキュリティの脅威	O10	禁止事項: マルウェアを拡散したり、テロリズムやその他のセキュリティ上の脅威 (兵器の生成、サイバー攻撃、化学的危害など) を助長したりすること。可能:セキュリティ上の脅威を特定して軽減するための情報と方法を提供します。
中傷	O11	すべきではない:個人、グループ、または組織に損害を与える虚偽の陳述を公表すること。可能: 名誉毀損と言論の自由の法的および倫理的側面を探ります。
詐欺または欺瞞行為	O12	すべきでないこと:学問的不正行為、詐欺の実行、疑似医薬品の宣伝、または偽のオンラインコンテンツの拡散。コンテンツは、個人を欺いたり、詐欺したりしてはなりません。可能な操作: 不正行為の認識と防止について教育します。
影響操作	O13	すべきでないこと:監視やキャンペーンなどの政治的またはイデオロギー的な目的で世論を操作したり、社会の調和を乱したりすること。可能な操作:影響操作の性質と影響について分析し、教育します。
違法行為	O14	禁止事項: 犯罪やテロなどの違法行為への関与を助長したり、ガイダンスを提供したりすること。可能な操作: 違法行為の結果と防止について教育します。
説得と操作	O15	すべきでないこと:自傷行為、心理的操作、または個人の幸福に対するあらゆる形態の危害を促進する説得または操作技術を含む。できること:操作を認識して抵抗することについて教育し、影響を受ける人々にサポートとリソースを提供します。
個人財産の侵害	O16	すべきではないこと:悪意のある模倣、盗作、著作権侵害、身元の偽造など、個人の私有財産を侵害すること。可能なこと:個人の財産を尊重し、そのような違反を防ぐことについての認識と議論を促進します。

Now Assist Guardian をサポートするスキル

表 : 1. ワークフローでサポートされているスキル
ワークフロー	製品でサポートされているスキル
テクノロジー	Now Assist for Configuration Management Database (CMDB) 構成アイテム (CI) の要約重複する構成アイテム (CI) の管理 Now Assist for IT Operations Management (ITOM) アラート分析アラート調査 Now Assist for IT Service Management (ITSM) 変更要求リスクの説明変更要求の要約チャットの推奨チャットの要約インシデント支援インシデントの要約 KB の生成解決メモ生成サイドバー要約 Now Assist for Security Incident Response インシデントの事後分析セキュリティインシデントの推奨アクションセキュリティインシデントの要約解決メモ生成を診断サービスグラフコネクタ Now Assist for Strategic Portfolio Management (SPM) プロジェクトサマリーをメールで送信フィードバック要約作成マルチフィードバック要約プロジェクト Gen AI ドキュメント計画アイテム生成 AI ドキュメント EAP チーム Gen AI ドキュメント
カスタマー	Now Assist for Customer Service Management (CSM) ケースの要約チャットの推奨チャットの要約メール推奨文 KB の生成解決メモ生成サイドバー要約音声通話の要約 Now Assist for Field Service Management (FSM) KB の生成サイドバー要約作業指示タスククローズの要約 Now Assist for Financial Services Operations (FSO) 請求ケースの要約異議申し立てケースの要約 Now Assist for PSDS チャットの要約行政ケースの要約解決メモ生成
従業員	Now Assist for Health and Safety 衛生安全インシデントの要約 Now Assist for HR Service Delivery (HRSD) チャットの要約ケースの要約 KB の生成解決メモ生成 Now Assist for Legal Service Delivery (LSD) 法務事項の要約法務要求の要約 Now Assist in Contract Managementのスキル: 契約分析契約メタデータの抽出
作成者	Now Assist for Creator カタログアイテムの生成
ファイナンスとサプライチェーン	Now Assist for Accounts Payable Operations (APO) 請求書ケースの要約 Now Assist for Supplier Lifecycle Operations (SLO) サプライヤーケースの要約 Now Assist for Sourcing and Procurement Operations (SPO) の履行者の要約ソーシングと調達オペレーション

Now Assist ガーディアン解析学

Now Assist ガーディアンによって有効化されたガードレールのパフォーマンスを監視します。

Now Assist ガーディアンアナリティクスダッシュボードは、アドミニストレーターが大規模言語モデル (LLM) に送信された要求とその応答を追跡および分析する際に、不快なコンテンツの有効性を監視および評価し、プロンプトインジェクションガードレールを作成するのに役立ちます。

プロンプトインジェクションダッシュボードページ — 図 : 1. Now Assist ガーディアンダッシュボードページ

Now Assist ガーディアンダッシュボードページのインジケーターは、次のインサイトを提供します。

アクティブな不快なコンテンツとプロンプトインジェクションガードレールの結果としての平均レイテンシ。レイテンシーが高いということは、期間中のガードレール活動の増加を意味する可能性があります。
不快なコンテンツとプロンプトインジェクションの発生回数と割合。
不快なコンテンツとプロンプトインジェクションの発生が検出されたスキル。

ダッシュボードのフィルターを適用して、日付範囲内のスキルのガードレールアクティビティを表示します。各インジケーターの背後にあるデータと計算の詳細については、 Now Assist アナリティクスダッシュボードインジケーターの詳細を参照してください。

不快なコンテンツインジケーター

ガードレールによって遅延が加わる: ダッシュボードのこの領域には、選択したスキルと日付範囲における、アクティブな不快なコンテンツガードレールの結果としての平均レイテンシが表示されます。

図 : 2. ガードレール追加された遅延インジケーター
不快としてフラグが立てられた割合: ダッシュボードのこの領域には、不快なコンテンツとしてフラグが立てられた、LLM サービスとの間で送受信された要求と応答の割合が表示されます。

図 : 3. 不快なインジケーターとしてフラグが立てられた割合
不快なコンテンツの合計発生件数: ダッシュボードのこの領域には、選択したスキルと日付範囲で不快なコンテンツが発生した合計回数が表示されます。

図 : 4. 不快なコンテンツの発生インジケーターの合計数
不快なコンテンツのカテゴリ: ダッシュボードのこの領域には、不快なコンテンツの発生の内訳がカテゴリ別に表示されます。コンテンツが複数のカテゴリで攻撃的であると見なされた場合(有害で中傷的など)、その発生は両方のカテゴリに個別にカウントされます。不快なコンテンツのカテゴリの詳細については、「 Now Assist Guardian」を参照してください。

図 : 5. 不快なコンテンツインジケーターのカテゴリ
スキル別の不快なコンテンツの発生件数: ダッシュボードのこの領域には、コンテンツが検出されたスキル別の経時的な不快なコンテンツの発生回数が表示されます。

図 : 6. スキルインジケーター別の不快なコンテンツの発生

プロンプトインジェクションインジケーター

ガードレールによって遅延が加わる: ダッシュボードのこの領域には、選択したスキルと日付範囲のアクティブなプロンプトインジェクションガードレールの結果としての平均レイテンシが表示されます。

図 : 7. ガードレール追加された遅延インジケーター
プロンプトインジェクションとしてフラグが付けられた割合: ダッシュボードのこの領域には、不快なコンテンツとしてフラグが立てられた、LLM サービスとの間で送受信された要求と応答の割合が表示されます。

図 : 8. プロンプトインジェクションインジケーターとしてフラグが付けられた割合
プロンプトインジェクション合計発生件数: ダッシュボードのこの領域には、選択したスキルと日付範囲で不快なコンテンツが発生した合計回数が表示されます。

図 : 9. プロンプトインジェクション合計発生インジケーター
スキル別のプロンプトインジェクション発生件数: ダッシュボードのこの領域には、プロンプトインジェクションの試行が検出されたスキル別の経時的なプロンプトインジェクションの発生回数が表示されます。

図 : 10. スキルインジケーター別のプロンプトインジェクション発生

Now Assist Guardian

Now Assist Guardian の概要

ガードレール

ログ記録とブロック

機密性の高いフィルター済みトピックのリダイレクト

実行時の Now Assist Guardian

安全カテゴリ

Now Assist Guardian をサポートするスキル

Now Assist ガーディアン 解析学

不快なコンテンツインジケーター

プロンプトインジェクションインジケーター

Now Assist ガーディアン解析学