マルチモデルバッチテスト

オーストラリア AI を有効にする

Release

australia

ft:locale

ja-JP

ft:publication_title

オーストラリア AI を有効にする

ft:clusterId

platai

bundleId

platai

workflow

Platform

マルチモデルバッチテスト

リリースバージョン: Australia

更新日 2026年03月12日

所要時間：3分

大規模な発言に対して複数の自然言語理解 (NLU) (NLU) モデルをテストし、モデルのパフォーマンスを評価します。テストセットを追加し、複数のモデルをテストして、テスト結果を確認します。

サマリー使用法

マルチモデルバッチテストを使用して、発言とその想定されるインテントで構成されるテストセットを作成およびアップロードします。その後、NLU モデルに対してテストを実行できます。

マルチモデルバッチテストは、サポートされているすべての NLU 言語のモデルで機能します。「NLU の言語サポート」を参照してください。

インストール

マルチモデルバッチテストは、ServiceNow® Store で利用可能な NLU ワークベンチ - Advanced Features アプリの一部です。

マルチモデルバッチテストを使用するには、インスタンスで NLU ワークベンチ - Advanced Features (com.snc.nlu.workbench.advanced) プラグインがアクティブになっていることを確認してください。詳細については、「NLU ワークベンチ」および「アクティブ化」を参照してください。

テストセット

テストセットは、発言と一致するインテントのリストです。CSV または XLSX (Excel ワークブック) ファイルのテーブルを使用して、テストセットを作成します。テーブルには 2 つの列が含まれている必要があります。1 つは発言用で、もう 1 つは想定されるインテント用です。テストセットには、最大 10,000 行を含めることができます。

NLU モデルのテストを最大限に活用するには、ユーザーからモデルで遭遇する可能性のある発言をテストセットに含める必要があります。テスト発言は、テストするモデルと同じ言語である必要があります。テストセットには、想定されるインテントのない発言も含める必要があります。想定されるインテントのない発言を含めると、無関係でインテントを予測すべきではない発言を検出するモデルの能力を評価するのに役立ちます。

これらのタイプの発言を含めることで、テストでは、インテントを認識してユーザーに応答するモデルの能力をより適切に評価できます。テストセットがモデルのインテントの少なくとも 60% をカバーしていない場合でもテストを実行できますが、推奨されるしきい値が最適ではない可能性があります。

注:

想定されるインテントがモデル内のインテントと一致しない場合、特定のテスト発言はテスト中にスキップされます。

テストセットを作成するには、「テストセットの作成」を参照してください。

テストセットが作成されたら、トレーニング済みの NLU モデルをテストできます。テストを開始するには、「マルチモデルバッチテストの実行」を参照してください。

テストを実行すると、結果が [ テスト結果 ] ページに表示されます。

テスト結果

[ テスト結果 ] ページには、完了したテストと進行中のテストが一覧表示されます。結果ページには、テスト対象のモデル、発言の数、および予測率が一目でわかります。

完了したテストを含むマルチモデルバッチテストページ。

テスト結果の詳細を表示するには、テストセットの名前をクリックします。

[ 概要 ] ページには、結果に関するサマリー情報が表示され、予測のブレークダウンを示すグラフィックが含まれています。

注意が必要なインテント (現在のモデル) には、見落とされていないインテントと誤ったインテントが上位 5 つ表示されます。インテント名をクリックすると、誤って予測されたテスト発言にドリルダウンできます。この情報を使用してモデルを改善します。

[ 詳細な結果] タブには、テストされた各発言に関する情報が一覧表示されます。ここから、各発言のモデルごとの予測結果と信頼性を確認できます。検索バーを使用するか、フィルターツールと列ヘッダーを操作して、結果をフィルタリングします。

[ エクスポート] をクリックして、テスト結果を CSV ファイルにエクスポートすることもできます。このファイルには、詳細結果ページと同じ列が含まれています。

テスト結果の詳細については、「モデルをテストおよび公開」を参照してください。