エージェント型評価のトラブルシューティング
実行の失敗、データ取り込みの問題、予期しない結果など、一般的な評価エラーの解決策を見つけます。
エージェント型評価を使用すると、予期しない実行結果またはエラーが発生する場合があります。以下では、発生する可能性のある状況と、それらの状況が発生する理由について説明します。
評価実行に失敗しました
評価実行が正しく実行されない理由はいくつかあります。
- エージェントのバージョンを利用できません
- 選択したエージェントのバージョンがまだ AI エージェントスタジオに存在することを確認します。バージョンが現在アクティブなバージョンである必要はありませんが、削除またはアーカイブされたバージョンは評価できません。
- ユーザー権限
- ユーザーレコードに、評価実行全般を実行し、特定の AI 資産を使用するために必要な権限があることを確認します。特定のユーザーがアクセス権を持っているかどうかを確認するために、アクセステストを実行できます。「AI エージェントへのユーザーアクセスをテストする」および「エージェント型ワークフローへのユーザーアクセスをテストする」を参照してください。
- データ形式エラー
- データセットが必要な形式に準拠していることを確認します。レコードの形式が正しくないと、評価が失敗する可能性があります。サポートされているデータタイプの エージェント型評価のデータ要件 を参照してください。
- メトリクスとデータの不一致
- 選択したすべてのメトリクスに必要なデータ入力があることを確認します。グラウンドトゥルースを必要とするメトリクスは、データセットにグラウンドトゥルースフィールドがない場合には失敗します。
問題が見つからなかったにもかかわらず、エージェント型 AI 資産のパフォーマンスが低下している
評価で問題は見つからなかったものの、特定のエージェント型 AI 資産が依然として許容基準を満たしていない場合は、次の点を考慮してください。
- データセット範囲
- 評価データセットには、エージェントの弱点を明らかにする入力またはシナリオのタイプが含まれていない場合があります。データセットに範囲のギャップがないか確認し、代表的なエッジケースを追加して、評価対象を実際のシナリオとより緊密に一致させます。
- メトリクスの選択
- 選択したメトリクスは、エージェント型 AI 資産のどこに問題があるかを測定していない可能性があります。追加の測定基準または異なる測定基準のどれがパフォーマンスギャップをより適切に捉えるかを確認します。カスタムメトリクスを作成して、応答の長さや応答が特定の書式設定要件を満たしているかどうかなど、エージェント型 AI 資産の応答またはアクションの他の側面を評価できます。
- 採点しきい値
- メトリクスの合格しきい値は、要件を反映していないレベルで設定される場合があります。メトリクス構成のしきい値設定を確認して、成功と失敗を再定義します。
最適化が適用されましたが、再評価が改善されませんでした
最適化を適用しても再評価スコアが改善されない場合は、次の操作を試してください。
- ターゲットとなった問題のトレースの詳細を確認します。最適化では、根本原因を解決せずに、表面レベルの症状のみが緩和される可能性があります。
- 最適化によって別のメトリクスで回帰がもたらされたかどうかを確認します。ある領域のスコアが向上すると、別の領域のスコアが低下し、最終スコアが低下することがあります。
- 最適化がエージェント型 AI 資産のステップのリストに適用された場合は、更新されたステップのリストが評価しているバージョンに適用されたことを確認します。
データ処理エラー
データ要件を満たしていないためにデータを処理できない場合、評価は適切に実行できません。データ処理エラーの一般的な原因を以下に示します。
- ファイル形式が正しくありません
- 受け入れられるファイル形式は、CSV と構造化 JSON です。他のファイル形式は処理できません。
- 必須フィールドがありません
- データセットには、選択したメトリクスに必要なフィールドが含まれている必要があります。欠落している列や名前が間違っている列がないか確認します。グラウンドトゥルースを使用する場合は、それをデータセットに含める必要があります。
- エンコーディングの問題
- ファイルは UTF-8 でエンコードする必要があります。非標準エンコーディングのファイルは処理に失敗することがあります。
- ファイルサイズ
- 非常に大きなファイルまたはデータセットは、処理中にタイムアウトする場合があります。これが発生した場合は、データセットサイズを減らすか、プラットフォームアドミニストレーターにお問い合わせください。