エージェント型評価の参照
エージェント型評価のロール、メトリクス、および出力形式に関する技術参考資料を検索します。
利用可能なメトリクス
|
メトリクス |
測定対象 |
グラウンドトゥルースが必要 |
|---|---|---|
|
タスクの完全性 |
エージェント型 AI 資産がユーザーのニーズに完全に対応しているかどうか。 |
オプション |
|
応答精度 |
エージェント型 AI 資産の応答が事実に基づいて正確かどうか |
推奨 |
|
接地 |
エージェント型 AI 資産の応答がタスクの特定のコンテキストに基づいているかどうか |
なし |
|
一貫性 |
エージェント型 AI 資産の応答が論理的に構造化されており、明確であるかどうか |
なし |
|
ツール使用精度 |
エージェント型 AI 資産がタスクを実行するために正しいツールを選択し、使用したかどうか |
オプション |
|
目標遵守 |
エージェント型 AI 資産が定義されたスコープと指示内にとどまったかどうか |
なし |
問題タイプ
問題は動作別に分類されます。各メトリクスには個別に特定された独自の問題があります。
|
カテゴリ |
エージェント型 AI 資産の動作 |
|---|---|
|
不完全な応答 |
応答がユーザーの要求全体に対応できませんでした |
|
事実エラー |
応答に事実として正しくないコンテンツが含まれていました |
|
幻覚 |
応答には、要求の特定のコンテキストに基づいていないコンテンツが含まれていました |
|
一貫性のない出力 |
応答がまとまりがないか、理解しにくかった |
|
誤ったツールの使用 |
間違ったツールが選択されたか、間違ったパラメーターがツールに渡されました |
|
スコープ違反 |
定義された運用スコープ外の要求に応答しました |
データ要件
|
要件 |
説明 |
|---|---|
|
最小テストケース数 |
実行ごとに必要なテストケースの最小数。実行に使用する特定のメトリクスには、独自の最小テストケースがある場合があります。データセットがすべてのメトリクスの要件を満たしていることを確認します。 |
|
サポートされている形式 |
CSV および構造化 JSON がサポートされています。 |
|
グラウンドトゥルースフィールド |
グラウンドトゥルースを使用している場合は、データセット内の別のフィールドとして指定する必要があります。グラウンドトゥルースフィールドは、各テストケースに個別に配置する必要があります。 |
|
データの代表性 |
データセットには、AI エージェントまたはエージェント型ワークフローが処理するすべてのタスクが反映されている必要があります。エッジケースと失敗しやすいシナリオを含めて、一般的な実際のシナリオに対してテストを行えるようにします。 |