アクティブな評価実行のステータスを監視してエラーを早期に検出し、結果をレビューする準備ができたら確認します。
始める前に
監視するには、アクティブな評価実行が必要です。評価実行の作成の詳細については、「 エージェント型評価実行の実行」を参照してください。
必要なロール:admin
このタスクについて
エージェント型評価は、特に大規模なデータセットの場合、完了するまでに時間がかかることがあります。進捗状況を監視すると、問題を早期に特定し、結果をレビューする準備ができるタイミングを判断できます。
手順
-
移動先 .
-
追跡可能なステータスの評価を選択します。
追跡する評価は、次の 2 つの場所にあります。
- [概要] セクション:最近の進行中の評価が [進行中の評価] カードに表示されます
- [自動評価] セクション:古い評価を含むすべての評価
追跡できる評価には、[処理中] または [アクションが必要] のRun statusがあります。
-
監視する評価を選択します。
評価モニタリングの詳細ページが開き、現在のステータスと進捗状況の情報が表示されます。
- オプション:
ステータスが [アクションが必要] の場合は、生成された実行ログを確認します。
[ アクションが必要 ] ステータスの最も一般的な理由は、実行ログが生成されたが、評価フェーズを開始する前に承認が必要な場合です。
-
データセットのアーティファクトを調べて、エージェント型 AI が特定のレコードでどのように機能したかを理解します。
個々のインシデントまたはその他のレコードを開いて、テスト中にエージェント型 AI 資産がそれらとどのようにやり取りしたかを確認できます。
-
詳細なパフォーマンス情報を表示する実行レコードを選択します。
これにより、実行の詳細が AI エージェントスタジオ で開き、エージェントやツールからのメッセージの推論や処理など、シミュレートされたユーザーとエージェント型 AI の間の会話全体を確認できます。
-
会話レコードとタイムスタンプを確認して、インタラクションフローを理解します。
開始フレーズと会話レコードは、各メッセージのタイムスタンプなど、AI エージェントがシミュレートされたユーザーとどのようにやり取りしたかに関する詳細情報を提供します。
- オプション:
実行ログを確認し、期待どおりである場合は、[ 評価の開始] を選択して評価フェーズを開始します。
ログを承認すると、LLM の判断と採点フェーズが開始されます。このフェーズでは実行ログを分析し、AI エージェントのパフォーマンスの定量的スコアを提供します。
評価ステータスが [ 対応中 ] に変わり、LLM 評価が開始されます。
- オプション:
LLM 評価フェーズの進捗状況を監視します。
このフェーズでは、以下を追跡できます。
- 評価されたレコードの数
- 推定残存時間
- 評価中に発生したエラーまたは警告
- オプション:
完了通知またはステータスの更新を確認します。
評価が完了すると、ステータスが [完了] に変わり、結果がレビュー可能になります。
タスクの結果
評価の進捗状況を監視し、必要に応じてアクションを実行できます。評価が正常に完了したら、詳細な結果を確認して、エージェント型 AI のパフォーマンスを理解できます。
次のタスク
評価が完了したら、結果を確認して、エージェント型 AI 構成の改善が必要な領域を特定します。評価結果の分析の詳細については、「 エージェント型評価の結果の確認」を参照してください。