評価のガイドライン

オーストラリア AI を有効にする

Release

australia

ft:locale

ja-JP

ft:publication_title

オーストラリア AI を有効にする

ft:clusterId

platai

bundleId

platai

workflow

Platform

エージェント型 AI 資産評価の一般的なガイドライン

リリースバージョン: Australia

更新日 2025年07月31日

所要時間：6分

エージェント型評価の実行と、エージェント型 AI 資産をデータセットに対して評価して、完了、パフォーマンス、ツールの実行を確認するためのさまざまな推奨事項について説明します。

エージェント評価実行の概要

エージェント型評価は、エージェント型 AI 資産がさまざまなシナリオやデータセットにわたって期待どおりに機能することを検証するのに役立ちます。定期的な評価は、エージェント型 AI 資産を開発する際の品質を維持し、改善が必要な領域を特定するのに役立ちます。

評価プロセスでは、自動テストを使用して、エージェント型 AI 資産のパフォーマンスを測定します。評価のメトリクスには、タスクの完了、ツールの正しい実行、パフォーマンス標準の維持が含まれます。独自のカスタムメトリクスを作成して、他の方法でエージェント型 AI 資産の応答とタスクを評価することもできます。

エージェント評価を実行するタイミング

開発とメンテナンスサイクルの重要なポイントでエージェント型評価を実行して、パフォーマンスを検証し、問題を早期に発見します。

基本実行を手動でテストした後に実行: 自動評価を実行する前に、 AI エージェントまたはエージェント型ワークフローの実行を手動でテストします。手動テストは、自動評価に時間を費やす前に、明らかな問題を特定し、基本的な機能が機能することを検証するのに役立ちます。
重要な変更を行ったときにエージェント型評価を実行する: エージェント型ワークフローを更新した後、エージェント型評価実行を実行して、新しいバージョンの有効性を追跡します。これには、パフォーマンスに影響を与える可能性のあるプロンプトやツール構成の変更が含まれます。
本番環境に展開する前に評価を実行: エージェント型 AI 資産を本番環境に展開する前に、テスト環境で評価します。これは、変更が正しく機能し、期待されるパフォーマンスレベルを維持することを確認するのに役立ちます。
継続的なモニタリングのための定期的な評価の実行: 定期的な評価実行をスケジュールして、エージェント型 AI 資産の継続的なパフォーマンスを監視します。これにより、時間の経過に伴うパフォーマンスの低下を検出し、一貫した品質を確保できます。
データソースの変更後に評価を実行: 基盤となるデータソースまたはスキーマが変更された場合は、評価を実行して、エージェント型 AI 資産が新しいデータ構造で引き続き正しく機能していることを確認します。

評価方法の選択

エージェント型 AI 資産のパフォーマンスを測定する側面に基づいて評価方法を選択します。さまざまな方法で、機能のさまざまな側面に関するインサイトが得られます。

評価方法のオプションを確認する: エージェント型評価ガイド付きセットアップでは、測定対象や仕組みなど、各評価方法に関する情報を提供します。サイドバーの一般的な質問で、利用可能なメトリクスに関する回答を確認することもできます。使用するメソッドを選択する前に、時間をかけて各メソッドを理解してください。
一度に複数の評価方法を使用: 複数の評価方法を選択することで、エージェント型 AI 資産のパフォーマンスをより適切に把握できます。方法によって、タスクの完了率、応答精度、ツール実行の成功など、さまざまな側面を測定できます。
ワークフロー検証のためにタスク完了メトリクスを検討する: タスク完了メトリクスは、エージェント型ワークフローが意図したタスクを正常に完了していることを確認し、エンドツーエンドのワークフロー機能を検証するのに役立ちます。
技術検証のためのツール実行メトリクスの適用: ツール実行メトリクスは、エージェント型 AI 資産がアクセスするように構成されたツールと API を正しく使用していることを確認します。この方法により、統合が期待どおりに機能するようになります。

データセットの作成

エージェント型 AI 資産が本番環境で遭遇するシナリオとデータを表すターゲットデータセットを作成します。適切に設計されたデータセットは、より意味のある評価結果を提供します。

フィルターを使用して適切なデータをターゲットにする: 実行ログにフィルターを追加して、エージェントワークフローを測定する対象を正確に制御します。[ プレビューを表示 ] を選択すると、レコードリストを表示できます。チェックボックスを使用して、測定対象の個々のレコードを選択することもできます。
評価実行の新しい実行データの生成: エージェント型評価のガイド付きセットアップを実行すると、評価を開始する前に複数のレコードに新しい実行ログを作成できます。このオプションを使用すると、時間を短縮し、評価用の新しいデータを確保できます。
データセットに多様なシナリオを含める: エッジケースやエラー条件など、エージェント型 AI 資産で発生する可能性のあるさまざまなシナリオを含むデータセットを作成します。包括的なデータセットは、ユーザーに影響を与える前に潜在的な問題を特定するのに役立ちます。
データセットの品質と関連性を維持: 評価データセットを定期的にレビューして更新し、現在のユースケースとの関連性を維持していることを確認します。古いシナリオを削除し、変化する要件やデータパターンを反映した新しいシナリオを追加します。
意味のある結果を得るためにデータ量を考慮する: 統計的に意味のある結果を生成するのに十分なデータ量をデータセットに含めます。データセットが小さいと、データセットが大きいと明らかになるパフォーマンスパターンや問題が明らかにならない場合があります。

評価結果の解釈

評価結果を理解することは、エージェント型 AI 資産を改善し、注意が必要な領域を特定する際に、情報に基づいた意思決定を行うのに役立ちます。

複数の評価実行にわたる傾向の分析: 複数の評価実行の結果を比較して、パフォーマンスの傾向を特定します。時間の経過に伴うパフォーマンスの向上または低下を示すパターンを探します。
ビジネス目標に沿った測定基準に焦点を当てる: 事業達成目標とユーザー要件に最も近い評価メトリクスに優先順位を付けます。特定のユースケースに対して、すべてのメトリクスが同じ重みを持つわけではありません。
予期しない結果の調査: 評価結果が予想と大きく異なる場合は、特定された問題とその痕跡を調査します。これにより、エージェント型 AI 資産構成、データ品質、または評価セットアップに関する問題が明らかになる可能性があります。

効果的な評価のための一般的なガイドライン

エージェント型評価作業の価値を最大化し、信頼性の高い結果を確保するには、次の一般的なガイドラインに従ってください。

ベースラインパフォーマンスメトリクスの確立: エージェント型 AI 資産を初めて展開するときにベースライン測定を作成します。これらのベースラインは、将来の評価結果を比較し、改善を追跡するための参照ポイントを提供します。
評価パフォーマンスを経時的に監視する: 評価プロセス自体のパフォーマンスを経時的に追跡します。これには、評価実行時間、リソース使用量、および評価インフラストラクチャの信頼性が含まれます。
評価方法の定期的な検証: 評価方法を定期的に見直して検証し、有意義なインサイトが引き続き提供されていることを確認します。エージェント型 AI 資産の進化や要件の変化に応じてメソッドを更新します。