エージェント型評価の詳細
自動評価では、エージェント型 AI 資産をテストし、本番環境の準備が整う時期を判断するのに役立ちます。評価の仕組み、評価対象者向け設計、および評価がもたらすメリットについて詳しく学びます。
エージェント評価の概要
自動化されたエージェント型評価により、AI エージェントビルダーは、エージェントが本番環境の準備ができていることを示す客観的で説明可能な証拠を使用して、自信を持って展開できます。定義されたデータセットに対してエージェントを実行し、LLM を活用したジャッジを適用して、タスクの完全性、応答の精度、ツールの使用などの品質をスコアリングすることで、品質保証から当て推量を排除します。そこから、改善を確認するための再評価をトリガーする前に適用できる推奨される最適化が生成されます。
AI エージェントやエージェント型ワークフローなどのエージェント型 AI 資産の構築は、反復的なプロセスです。エージェント型評価は、構造化された方法で AI 資産の品質を検証し、プロセスの迅速化に役立つように設計されています。代表的なデータセットに対してテストするため、実際の状況を処理するためのエージェント型 AI 資産のパフォーマンスをより確信できます。
エージェント型評価は非本番環境で実行でき、ライブ展開は必要ありません。エージェント型 AI 資産のテストフェーズ中に実行することで、ベンチマークと標準を満たしながら本番環境に展開できることを確認できます。
エージェント型評価ユーザー
| ユーザー | 説明 |
|---|---|
| エージェントビルダー | AI エージェントスタジオ でエージェントをビルドする開発者または構成担当者。自動評価は、エージェントビルダーが厳密な評価を大規模に実行できるように設計されています。 |
| プラットフォームアドミニストレーター | 本番用に承認されるエージェントを管理するプラットフォームアドミニストレーターは、展開前に品質の証拠として自動化された評価結果を使用できます。 |
| AI リードとアーキテクト | AI リードとアーキテクトは、複数のエージェントにわたる監査証跡と品質メトリクスの自動評価結果を使用できます。 |
自動評価ワークフロー
- 名前、選択したエージェント型 AI 資産とそのバージョン、メトリクス、データセットを使用して評価実行を構成します。
- 実行を実行し、LLM がエージェント型応答を判断するときに進捗状況を追跡します。
- ジャッジスコアや特定された問題やトレースなど、実行結果を分析します。
- 的を絞った推奨事項でエージェント型 AI 資産を最適化し、再評価をトリガーします。
- エージェント型 AI 資産に対する今後の実行やその他の変更の品質を検証します。
自動評価のメリット
| メリット | 機能 | ユーザー |
|---|---|---|
| エージェント型 AI 資産の特定のバージョンの品質を評価します | 評価実行の実行 | エージェントビルダー |
| エージェント型 AI の応答とパフォーマンスに関する独自の基準を設定 | カスタムメトリクス | エージェントビルダー、プラットフォームアドミニストレーター、AI リード、アーキテクト |
| 評価の進捗状況を追跡する | 進行中の結果 | エージェントビルダー |
| 問題を特定してソースまで追跡する | 評価出力 | エージェントビルダー、AI リード、AI アーキテクト |
| 評価結果に基づいてエージェント型 AI 資産を最適化する | システム生成の最適化の推奨事項 | エージェントビルダー |
次の詳細情報
エージェント型評価の構成と使用の詳細については、以下を参照してください。