NLU モデルのパフォーマンス

  • リリースバージョン: Xanadu
  • 更新日 2024年08月01日
  • 所要時間:9分
  • NLUモデルパフォーマンスを使用して、エンドユーザーの確認に基づいて、モデルが 仮想エージェント (VA) のインテントをどの程度予測したかを確認します。

    使用方法の概要

    NLU Model Performance アプリケーションは、NLUモデルが VA ユーザーの発言からインテントをどの程度適切に予測しているかについての分析とレポートを提供します。VA の NLU モデルが更新、公開、および展開されると、 NLU モデルパフォーマンスを使用して、それらが行うインテント予測の有効性を確認できます。これらの予測がスキップされるのは、モデルに対して十分に高い信頼スコアを持つインテントを予測できないためです。VA トピック予測を改善するために、サポートされていない VA 発話は分析のためにクラスターにグループ化され、分析の結果を識別するレポートが生成されます。このアプリケーションにアクセスするには、nlu_admin または admin ロールを使用して、 すべて > NLU ワークベンチ > パフォーマンス.

    注:
    NLUモデルパフォーマンスを使用するには、まずインスタンスに少なくとも 5,000 件の VA 発話が必要です。nlu_admin ロールを使用すると、 sn_nlu_workbench.glide.nlu.performance.min_clustering_records プロパティをリセットしてこの制限を変更できます。

    インストール

    NLU Model Performance は、 ServiceNow® Store で利用できるアプリケーションです。このアプリケーションを使用するには、 NLU ワークベンチ - 拡張機能 (sn_nlu_workbench) プラグインがインスタンスでアクティブになっていることを確認してください。詳細については、「NLU ワークベンチのNLU ワークベンチのインストール:拡張機能とアクティブ化」を参照してください。NLU モデルのパフォーマンスは VA からの受信データに依存するため、Glide 仮想エージェント (com.glide.cs.chatbot) プラグインもアクティブであることを確認します。「 仮想エージェントのアクティブ化」を参照してください。

    ServiceNow NLU の対話型インターフェース設定の構成

    NLUパフォーマンスを追跡するには、最初に 仮想エージェント で対話型インターフェース (CI) 設定を構成する必要があります。これらの設定にアクセスするには、[ 仮想エージェントの NLU モデルパフォーマンス ] ランディングページの上部に移動し、[ 対話型インターフェース設定] をクリックします。このアクションにより、下の画像に示すように、仮想エージェントの CI 設定ページに移動します。

    対話型インターフェースの設定

    設定を構成するには、virtual_agent_admin または admin ロールを使用する必要があります。構成ガイダンスについては、「 仮想エージェントに NLU を実装する 」および「 仮想エージェント設定で NLU 言語を有効にする」を参照してください。

    ユーザー インターフェイス (UI) の確認

    NLU モデルパフォーマンス UI は、以下に示す部分で構成されており、NLU モデルパフォーマンスのデフォルトのランディングページを示す次の画像では、これらの部分が強調表示されています。
      • ユーザーが VA とやり取りするときに発生するシナリオを説明するデータを示す [ パフォーマンス ] タブとその色付きのグラフ。このグラフは 3 色の網掛けで分割されており、それぞれがユーザー シナリオを表しています。グラフ内でテキストとパーセンテージを含む行は、凡例と呼ばれます。凡例の 1 行目の 3 つのシナリオの下には、2 つの結果シナリオがあります。凡例の下のバーは、その上のシナリオの色に対応しています。これらのバーのサイズは、各シナリオのパーセンテージ値に基づいて異なります。
      • たとえば、濃い青色のバーは、VA ユーザーのこのバッチの 10% が、VA チャットボットの会話に使用する正しいトピックがシステムによって提示されたことを確認し、58 % のユーザー (濃い赤色のバーで表される) が、提示されたトピックが正しくないことを確認したことを示しています。これら 2 つのシナリオの間に存在するシナリオは、ユーザーの 32% (暗褐色のバーで表される) がまったく確認を行わなかったことを示しています。
      • [ すべてのバーを表示 ] フィルターをいつでも切り替えて、チャート内の色付きのバーとそれに関連するシナリオを表示または非表示にすることをお勧めします。また、NLU モデルパフォーマンスに初めてアクセスしたときは、チャートのデフォルトビューにはシナリオの最初の行と棒の最初の行のみが表示されます。
      • 表示しているシナリオに応じて、表示できる他のビューもあります。たとえば、最初に NLU モデルパフォーマンスにアクセスし、凡例の最初の行のシナリオをクリックすると、他の 2 つのシナリオのバーが非表示になります。これにより、焦点を当てているシナリオが他のシナリオから部分的に分離されるため、UI がすっきりします。これらのアクションではデータは変更されず、グラフ内の凡例と棒のさまざまなビューが表示されるだけです。
    • [ サポートされていない発言] タブには、パフォーマンス分析で使用するためにクラスターにグループ化された発言が表示されます。UI のこのセクションでは、専門家フィードバックループアプリケーションに移動したり、アプリケーションから戻ったり、分析を実行したりできます。

      サポートされていない発話は、無関係な発話とは異なります。詳細については、「NLU での無関係の検出」を参照してください。

    • 棒グラフの下にある [パフォーマンスの詳細 ] セクション。このセクションには、[ 発言]、[ 予測されるインテント]、[ 予測モデル]、および [ 予測結果] の 4 つの列があります。このセクションに表示される詳細は、その上の凡例データおよび棒データとやり取りします。

    NLU モデルのパフォーマンス

    VA ユーザーシナリオの確認

    UI の凡例セクションでは、テキストとパーセンテージに情報アイコンが付随します。アイコンをポイントすると、ユーザーシナリオの定義が呼び出されます。定義については、以下の表を参照してください。

    表 : 1. シナリオ定義
    シナリオ 定義
    ユーザーが正しいことを確認しました 正しいトピックがエンドユーザーに提示され、エンドユーザーはそれが正しいことを確認しました。
    トピックが起動され、ユーザーが正しいことを確認しました トピックが起動され、ユーザーがそれが必要なトピックであることを確認しました。
    トピックメニューが表示され、ユーザーが 1 つ選択しました 複数のトピックがメニューとしてユーザーに表示され、ユーザーはニーズに対応するトピックを 1 つ選択しました。
    ユーザーが確認を行っていません トピックが起動されましたが、ユーザーがそれが自分のニーズに合っているかどうかを確認しませんでした。
    予測は行われず、代替トピックが起動されました 予測は行われず、代替トピックが起動されました。
    トピックが起動されましたが、ユーザーの確認はありません トピックが起動されましたが、ユーザーがそれが正しいかどうかを確認しませんでした。
    ユーザーが正しくないことを確認しました 提示されたトピックはエンドユーザーのニーズに対応しておらず、ユーザーがトピックが正しくないことを確認しました。
    トピックが起動され、ユーザーが正しくないことを確認しました トピックが起動され、ユーザーがそれが正しくないことを確認しました。
    トピックメニューが表示されましたが、ユーザーは何も選択していません 複数のトピックがメニューとしてユーザーに表示され、ユーザーはどのトピックも関連性がないと判断し、トピックを選択しませんでした。

    言語フィルターとモデルフィルターの使用

    [パフォーマンス] タブには、[言語] フィルターと [モデル] フィルターが表示されます。その横には、グラフの凡例と棒の上に設定した最新の日付範囲の値も表示されます。言語フィルターをクリックすると、NLU で使用可能なすべての言語が表示されます。モデルフィルターをクリックすると、インスタンスで利用可能なすべての予測モデルが表示されます。[言語] フィルターの既定の設定は [すべての言語] で、[モデル] フィルターの既定の設定は [すべてのモデル] です。

    言語フィルターとモデルフィルターは相互に作用します。たとえば、[言語] フィルターで [French-fr] を選択すると、次の画像に示すように、[モデル] フィルターにはフランス語を使用するインスタンス内のすべての予測モデルが自動的に表示されます。言語フィルターとモデルフィルターは相互に作用します。

    他のインタラクションもあります。たとえば、NLU モデルのパフォーマンスランディングページのデフォルトビューからは、次のようになります。
    • [モデル] フィルターから特定のモデルを選択すると、[言語フィルター] の値が更新され、選択したモデルの言語が表示されます。
    • 言語フィルターから特定の言語を選択した場合、モデルフィルターには選択した言語のモデルのみが表示されます。
    [Language (言語)] フィルターと [Model (モデル)] フィルターの下に、[ Include translated conversations (翻訳された会話を含める )] スイッチが表示されます。動的言語翻訳を使用してプライマリ言語に翻訳された VA 会話のパフォーマンスを含めるには、スイッチを右に切り替えて色が灰色から緑色に変わります。これを行うと、チャートの凡例のバーの位置と色も変わる可能性があります。対話 型インターフェースの設定で動的言語翻訳を管理できます。

    日付範囲の設定

    [ パフォーマンス ] タブで、[ 日付範囲 ] を使用して、システムが VA データをプルする期間を定義します。[過去 30 日間]、[過去 60 日間]、[過去 90 日間]、または [カスタム範囲] を選択します。日付範囲をさかのぼるほど、分析に含まれるデータが多くなります。

    レポートで 90 日を超えるデータをカバーする場合は、[カスタム] 範囲を使用します。

    分析の実行

    パフォーマンス分析を実行するには、[ サポートされていない発話 (Unsupported utterances)] タブをクリックします。UI のこのセクションには、 NLU トピック予測が行われなかった、または予測されたトピックが正しくないことを VA エンドユーザーが確認した VA 発言を含む展開可能なクラスターの行が表示されます。次にやりたいことは、 専門家フィードバックループをクリックすることです。このアクションにより、 NLU 専門家フィードバックループ アプリケーションに移動し、VA からプルされた発言を確認してフィードバックを提供します。

    図 : 1. サポートされていない発話のレビュー
    専門家フィードバックループに移動して NLU モデルのパフォーマンスに戻る

    専門家フィードバックループアプリケーションを終了して NLU モデルパフォーマンスに戻る場合は、任意のクラスターの キャレット アイコンをクリックして開きます。次の画像に示すように、クラスター内では、最も代表的な VA 発話が表示されます。

    図 : 2. クラスター内の上位の代表的な発話の確認
    発言のクラスターを開いて、その中の VA 発言を表示できるようにします。

    [ 分析の実行 ] または [ 分析の再実行] のいずれか使用可能な方をクリックします。分析を実行するたびに、最新の VA 発言が分析にプルされます。