エージェント型評価の進捗状況の追跡と監視

  • リリースバージョン: Australia
  • 更新日 2026年03月18日
  • 所要時間:2分
  • アクティブな評価実行のステータスを監視してエラーを早期に検出し、結果をレビューする準備ができたら確認します。

    始める前に

    監視するには、アクティブな評価実行が必要です。評価実行の作成の詳細については、「 エージェント型評価実行の実行」を参照してください。

    必要なロール:admin

    このタスクについて

    エージェント型評価は、特に大規模なデータセットの場合、完了するまでに時間がかかることがあります。進捗状況を監視すると、問題を早期に特定し、結果をレビューする準備ができるタイミングを判断できます。

    手順

    1. 移動先 すべて > Now Assist スキルキット > エージェント型評価.
    2. 追跡可能なステータスの評価を選択します。

      追跡する評価は、次の 2 つの場所にあります。

      • [概要] セクション:最近の進行中の評価が [進行中の評価] カードに表示されます
      • [自動評価] セクション:古い評価を含むすべての評価

      追跡できる評価には、[処理中] または [アクションが必要]Run statusがあります。

    3. 監視する評価を選択します。
      評価モニタリングの詳細ページが開き、現在のステータスと進捗状況の情報が表示されます。
    4. オプション: ステータスが [アクションが必要] の場合は、生成された実行ログを確認します。

      [ アクションが必要 ] ステータスの最も一般的な理由は、実行ログが生成されたが、評価フェーズを開始する前に承認が必要な場合です。

      1. データセットのアーティファクトを調べて、エージェント型 AI が特定のレコードでどのように機能したかを理解します。
        個々のインシデントまたはその他のレコードを開いて、テスト中にエージェント型 AI 資産がそれらとどのようにやり取りしたかを確認できます。
      2. 詳細なパフォーマンス情報を表示する実行レコードを選択します。
        これにより、実行の詳細が AI エージェントスタジオ で開き、エージェントやツールからのメッセージの推論や処理など、シミュレートされたユーザーとエージェント型 AI の間の会話全体を確認できます。
      3. 会話レコードとタイムスタンプを確認して、インタラクションフローを理解します。
        開始フレーズと会話レコードは、各メッセージのタイムスタンプなど、AI エージェントがシミュレートされたユーザーとどのようにやり取りしたかに関する詳細情報を提供します。
    5. オプション: 実行ログを確認し、期待どおりである場合は、[ 評価の開始] を選択して評価フェーズを開始します。

      ログを承認すると、LLM の判断と採点フェーズが開始されます。このフェーズでは実行ログを分析し、AI エージェントのパフォーマンスの定量的スコアを提供します。

      評価ステータスが [ 対応中 ] に変わり、LLM 評価が開始されます。
    6. オプション: LLM 評価フェーズの進捗状況を監視します。

      このフェーズでは、以下を追跡できます。

      • 評価されたレコードの数
      • 推定残存時間
      • 評価中に発生したエラーまたは警告
    7. オプション: 完了通知またはステータスの更新を確認します。
      評価が完了すると、ステータスが [完了] に変わり、結果がレビュー可能になります。

    タスクの結果

    評価の進捗状況を監視し、必要に応じてアクションを実行できます。評価が正常に完了したら、詳細な結果を確認して、エージェント型 AI のパフォーマンスを理解できます。

    次のタスク

    評価が完了したら、結果を確認して、エージェント型 AI 構成の改善が必要な領域を特定します。評価結果の分析の詳細については、「 エージェント型評価の結果の確認」を参照してください。