マルチモデルバッチテスト

ワシントン DC で AI を有効にする

Release

washingtondc

ft:locale

ja-JP

ft:publication_title

ワシントン DC で AI を有効にする

ft:clusterId

platai

bundleId

platai

workflow

Platform

マルチモデルバッチテスト

リリースバージョン: Washingtondc

更新日 2024年02月01日

1 読むのに数分読む

多数の発言に対して複数の自然言語理解 (NLU) (NLU) モデルをテストし、モデルのパフォーマンスを評価します。テストセットを追加し、複数のモデルをテストして、テスト結果を確認します。

使用方法の概要

マルチモデルバッチテストを使用して、発言とその想定されるインテントで構成されるテストセットを作成してアップロードします。その後、NLU モデルに対してテストを実行できます。

マルチモデルバッチテストは、サポートされているすべての NLU 言語のモデルで機能します。「NLU の言語サポート」を参照してください。

インストール

マルチモデルバッチテストは、 NLU ワークベンチで入手できる ServiceNow® Store高度な機能アプリの一部です。

マルチモデルバッチテストを使用するには、インスタンスで - Advanced Features (com.snc.nlu.workbench.advanced) プラグインがアクティブになっていることを確認します NLU ワークベンチ。詳細については、「NLU Workbench のアクティブ化」を参照してくださいNLU Workbench - Advanced Features のインストール。

テストセット

テストセットは、発言と一致するインテントのリストです。CSV または XLSX (Excel ワークブック) ファイルのテーブルを使用して、テストセットを作成します。テーブルには、発言用と想定されるインテント用の 2 つの列が含まれている必要があります。テストセットには、最大 10,000 行を含めることができます。

NLU モデルのテストを最大限に活用するには、モデルがユーザーから遭遇する可能性のある発言をテストセットに含める必要があります。テスト発言は、テストするモデルと同じ言語である必要があります。テストセットには、想定されるインテントのない発言も含める必要があります。想定されるインテントのない発話を含めると、無関係であり、インテントを予測すべきではない発話を検出するモデルの能力を評価するのに役立ちます。

これらのタイプの発話を含めることで、インテントを知覚してユーザーに応答するモデルの能力をテストでより適切に評価できます。テストセットがモデルのインテントの少なくとも 60% をカバーしていない場合でも、テストを実行できますが、推奨されるしきい値が最適ではない可能性があります。

注:

想定されるインテントがモデル内のどのインテントとも一致しない場合、テスト中に特定のテスト発言がスキップされます。

テストセットを作成するには、「」を参照してくださいテストセットの作成。

テストセットができたら、トレーニング済みの NLU モデルをテストできます。テストを開始するには、「」を参照してくださいマルチモデルバッチテストの実行。

テストを実行すると、結果が [ テスト結果 ] ページに表示されます。

テスト結果

[テスト結果] ページには、完了したテストと進行中のテストが一覧表示されます。結果ページには、テストされたモデル、発話数、予測率が一目でわかります。

完了したテストを含む [マルチモデルバッチテスト] ページ。

テスト結果の詳細を表示するには、テストセットの名前をクリックします。

[ 概要 ] ページには、結果に関する概要情報が表示され、予測の内訳を示すグラフィックが含まれています。

[注意が必要なインテント (現在のモデル)] には、見落とされたインテントと正しくないインテントの上位 5 件が表示されます。インテント名をクリックすると、誤って予測されたテスト発言にドリルダウンされます。この情報を使用してモデルを改善します。

[ 詳細な結果 ] タブには、テストされた各発話に関する情報が一覧表示されます。ここから、各発言のモデルごとの予測結果と信頼度を確認できます。検索バーを使用するか、フィルターツールと列ヘッダーを操作して、結果をフィルタリングします。

[ エクスポート] をクリックして、テスト結果を CSV ファイルにエクスポートすることもできます。このファイルには、詳細な結果ページと同じ列が含まれています。

テスト結果を理解するための詳細については、次を参照してくださいモデルをテストおよび公開。