NLU モデルのパフォーマンス

リリースバージョン: Washingtondc

更新日 2024年02月01日

1 読むのに数分読む

モデルのパフォーマンスを使用して NLU 、エンドユーザーの確認に基づいて、モデルが (VA) の仮想エージェントインテントをどの程度正確に予測したかを確認します。

使用方法の概要

NLUモデルパフォーマンスアプリケーションは、モデルが VA ユーザーの発言からインテントをどの程度正確にNLU予測しているかについての分析とレポートを提供します。NLU VA のモデルが更新、公開、および展開されると、[NLUモデルのパフォーマンス] を使用して、モデルが行うインテント予測の有効性を確認できます。これらの予測がスキップされるのは、モデルに対して十分に高い信頼スコアを持つインテントを予測できないためです。VA トピックの予測を改善するために、サポートされていない VA 発話は分析のためにクラスターにグループ化され、分析の結果を識別するレポートが生成されます。このアプリケーションにアクセスするには、nlu_admin または admin ロールを使用して、次の場所に移動します。すべて > NLU ワークベンチ > パフォーマンス.

注:

モデルパフォーマンスを使用するには NLU 、まずインスタンスに少なくとも 5,000 個の VA 発言が必要です。nlu_admin ロールを使用すると、プロパティを sn_nlu_workbench.glide.nlu.performance.min_clustering_records リセットしてこの制限を変更できます。

インストール

NLU モデルパフォーマンスは、で ServiceNow® Store利用可能なアプリケーションです。このアプリケーションを使用するには、インスタンスで拡張機能 (sn_nlu_workbench) プラグインがアクティブになっていることを確認してください NLU ワークベンチ。詳細については、「NLU Workbench のアクティブ化」を参照してくださいNLU Workbench - Advanced Features のインストール。NLU モデルのパフォーマンスは VA からのデータに依存するため、Glide 仮想エージェント (com.glide.cs.chatbot) プラグインもアクティブであることを確認してください。「仮想エージェントのアクティブ化」を参照してください。

NLU の ServiceNow Conversational Interfaces 設定の構成

パフォーマンスを追跡する NLU には、最初にで仮想エージェントConversational Interfaces (CI) 設定を構成する必要があります。これらの設定にアクセスするには、[ 仮想エージェントの NLU モデルのパフォーマンス ] ランディングページの上部に移動し、[ Conversational Interfaces 設定] をクリックします。このアクションにより、下の画像に示すように、仮想エージェントの CI 設定ページに移動します。

Conversational Interfaces の設定

設定を構成するには、virtual_agent_admin または admin ロールを使用する必要があります。構成ガイダンスについては、「仮想エージェントに NLU を実装する」および「仮想エージェント設定で NLU 言語を有効にする」を参照してください。

ユーザーインターフェイス (UI) の確認

NLU モデルのパフォーマンス UI は、NLU モデルのパフォーマンスのデフォルトのランディングページを示す次の画像で強調表示されている、以下に示す部分で構成されています。

- [ パフォーマンス ] タブと、ユーザーが VA とやり取りするときに発生するシナリオを説明するデータを示す色付きグラフ。このグラフは 3 色の濃淡でセグメント化されており、それぞれがユーザーシナリオを表しています。グラフ内でテキストとパーセンテージを含む行は、凡例と呼ばれます。凡例の 1 行目の 3 つのシナリオの下には、2 つの結果シナリオがあります。凡例の下にあるバーは、その上のシナリオの色に対応しています。これらのバーのサイズは、各シナリオのパーセンテージ値に基づいて決まります。
- たとえば、濃い青色のバーは、このバッチの VA ユーザーの 10% が、VA チャットボットの会話に使用する正しいトピックが提示されたことを確認し、ユーザーの 58 % (濃い赤色のバーで表される) が、提示されたトピックが正しくないことを確認したことを示しています。これら 2 つのシナリオの間には、ユーザーの 32% (濃い茶色のバーで表される) がまったく確認を行わなかったことを示すシナリオがあります。
- [ すべてのバーを表示 ] フィルターをいつでも切り替えて、チャート内の色付きのバーとそれに関連するシナリオを表示または非表示にすることをお勧めします。また、NLU モデルのパフォーマンスに初めてアクセスしたときは、チャートのデフォルトビューにはシナリオの最初の行と棒の最初の行のみが表示されます。
- 表示しているシナリオに応じて、表示できる他のビューもあります。たとえば、最初に NLU モデルのパフォーマンスにアクセスし、凡例の最初の行のシナリオをクリックすると、他の 2 つのシナリオのバーが非表示になります。これにより、焦点を当てているシナリオが残りのシナリオから部分的に分離されるため、UI がすっきりと整理されます。これらのアクションではデータは変更されず、チャート内の凡例と棒のさまざまなビューが表示されるだけです。
[ サポートされていない発言 ] タブ。パフォーマンス分析で使用するためにクラスターにグループ化された発言が表示されます。UI のこのセクションでは、専門家フィードバックループアプリケーションに移動したり、アプリケーションから戻ったり、分析を実行したりできます。
サポートされていない発話は、無関係な発話とは異なります。詳細については、「NLU での無関係の検出」を参照してください。
棒グラフの下にある [ パフォーマンスの詳細 ] セクション。このセクションには、[ 発言]、[ 予測されたインテント]、[ 予測モデル]、および [予測結果] の 4 つの列があります。このセクションに表示される詳細は、その上の凡例データおよび棒グラフデータと連動します。

NLU モデルのパフォーマンス

VA ユーザーシナリオの確認

UI の凡例セクションでは、テキストとパーセンテージに情報アイコンが付随しています。アイコンをポイントすると、そのユーザーシナリオの定義が呼び出されます。定義については、以下の表を参照してください。

表 : 1. シナリオ定義
シナリオ	定義
ユーザーが正しいことを確認しました	正しいトピックがエンドユーザーに提示され、エンドユーザーはそれが正しいことを確認しました。
トピックが起動され、ユーザーが正しいことを確認しました	トピックが起動され、ユーザーがそれが必要なトピックであることを確認しました。
トピックメニューが表示され、ユーザーが 1 つ選択しました	複数のトピックがメニューとしてユーザーに表示され、ユーザーはニーズに対応するトピックを 1 つ選択しました。
ユーザーが確認を行っていません	トピックが起動されましたが、ユーザーがそれが自分のニーズに合っているかどうかを確認しませんでした。
予測は行われず、代替トピックが起動されました	予測は行われず、代替トピックが起動されました。
トピックが起動されましたが、ユーザーの確認はありません	トピックが起動されましたが、ユーザーがそれが正しいかどうかを確認しませんでした。
ユーザーが正しくないことを確認しました	提示されたトピックはエンドユーザーのニーズに対応しておらず、ユーザーはトピックが正しくないことを確認しました。
トピックが起動され、ユーザーが正しくないことを確認しました	トピックが起動され、ユーザーがそれが正しくないことを確認しました。
トピックメニューが表示されましたが、ユーザーは何も選択していません	複数のトピックがメニューとしてユーザーに表示され、ユーザーはどのトピックも関連性がないと判断し、トピックを選択しませんでした。

言語フィルターとモデルフィルターの使用

[パフォーマンス] タブには、[言語] フィルターと [モデル] フィルターが表示されます。その横には、グラフの凡例とバーの上に設定した最新の日付範囲の値も表示されます。[言語] フィルターをクリックすると、でNLU使用可能なすべての言語が表示されます。[モデル] フィルターをクリックすると、インスタンスで利用可能なすべての予測モデルが表示されます。[言語] フィルターの既定の設定は [すべての言語] で、[モデル] フィルターの既定の設定は [すべてのモデル] です。

[言語] フィルターと [モデル] フィルターは相互に作用します。たとえば、[言語] フィルターで [French-fr] を選択すると、次の画像に示すように、[モデル] フィルターには、フランス語を使用するインスタンス内のすべての予測モデルが自動的に表示されます。 [言語] フィルターと [モデル] フィルターは相互に作用します。

他のインタラクションもあります。たとえば、NLU モデルのパフォーマンスランディングページのデフォルトビューから、次のようにします。

[モデル] フィルターから特定のモデルを選択すると、[言語] フィルターの値が更新され、選択したモデルの言語が表示されます。
[言語] フィルターから特定の言語を選択した場合、[モデル] フィルターには、選択した言語のモデルのみが表示されます。

[言語] フィルターと [モデル] フィルターの下に、[ 翻訳された会話を含める ] スイッチが表示されます。動的言語翻訳を使用してプライマリ言語に翻訳された仮想エージェントの会話のパフォーマンスを含めるには、スイッチを右に切り替えて色が灰色から緑に変更します。これを行うと、チャートの凡例のバーの位置と色も変わる場合があります。動的言語翻訳は、 Conversational Interfaces 設定で管理できます。

日付範囲の設定

[パフォーマンス] タブで、日付範囲を使用して、システムが VA データをプルする期間を定義します。[過去 30 日間]、[過去 60 日間]、[過去 90 日間]、または [カスタム範囲] を選択します。日付範囲をさかのぼるほど、分析に含まれるデータが多くなります。

レポートで 90 日を超えてさかのぼるデータを含める場合は、[カスタム] 範囲を使用します。

分析の実行

パフォーマンス分析を実行するには、「サポートされていない発言」タブをクリックします。UI のこのセクションには、トピック予測が行われなかった、または予測されたトピックが正しくないことを VA エンドユーザーが確認した VA 発言 NLU を含む展開可能なクラスターの行が表示されます。次にやりたいことは、専門家フィードバックループをクリックすることです。このアクションにより、 NLU 専門家フィードバックループアプリケーションに移動し、VA からプルされた発言を確認してフィードバックを提供します。

専門家フィードバックループに移動し、NLU モデルのパフォーマンスに戻る — 図 : 1. サポートされていない発言の確認

専門家フィードバックループアプリケーションを終了して NLU モデルのパフォーマンスに戻る場合は、任意のクラスターのキャレットアイコンをクリックして開きます。次の図に示すように、クラスター内では、最も代表的な VA 発言が表示されます。

発言のクラスターを開いて、その中の VA 発言を表示できるようにします。 — 図 : 2. クラスター内の上位の代表的な発言の確認

[ 分析の実行 ] または [ 分析の再実行] のいずれか使用可能な方をクリックします。分析を実行するたびに、最新の VA 発言が分析にプルされます。