Référence pour les évaluations agentiques
Trouvez des documents de référence technique sur les rôles, les mesures et les formats de sortie des évaluations agentiques.
Mesures disponibles
|
Mesure |
Ce qu’il mesure |
Vérité fondée requise |
|---|---|---|
|
L'exhaustivité de la tâche |
Si l’actif IA agentique répond entièrement au besoin de l’utilisateur. |
Facultatif |
|
Précision de la réponse |
Si la réponse de l’actif IA agentique est factuellement exacte |
Recommandé |
|
Ancrage |
Si la réponse de l’actif IA agentique est fondée sur le contexte spécifique de la tâche |
Non |
|
Cohérence |
Si la réponse de l’actif IA agentique est logiquement structurée et claire |
Non |
|
Précision d’utilisation de l’outil |
Si l’actif IA agentique a sélectionné et utilisé le bon outil pour exécuter ses tâches |
Facultatif |
|
Respect des objectifs |
Si l’actif IA agentique est resté dans son périmètre et ses instructions définis |
Non |
Types de problèmes
Les problèmes sont ventilés par comportement. Chaque mesure a ses propres problèmes identifiés séparément.
|
Catégorie |
Comportement de l’actif IA agentique |
|---|---|
|
Réponse incomplète |
La réponse n’a pas permis de répondre à la demande complète de l’utilisateur |
|
Erreur factuelle |
La réponse contenait un contenu qui n’est pas factuellement correct |
|
Hallucination |
La réponse contenait un contenu non fondé sur le contexte spécifique de la demande |
|
Sortie incohérente |
La réponse était désorganisée ou difficile à comprendre |
|
Utilisation incorrecte de l’outil |
Vous avez sélectionné le mauvais outil ou transmis des paramètres incorrects à un outil |
|
Violation du périmètre |
Réponse à une demande en dehors de son périmètre opérationnel défini |
Exigences en matière de données
|
Besoin |
Description |
|---|---|
|
Nombre minimal de scénarios de tests |
Un nombre minimum de scénarios de tests est requis par exécution. Les mesures spécifiques que vous utilisez pour l’exécution peuvent avoir leurs propres scénarios de test minimum. Assurez-vous que votre ensemble de données répond aux exigences de toutes les mesures. |
|
Formats pris en charge |
CSV et JSON structuré sont pris en charge. |
|
Champ de vérité fondée |
Si vous utilisez une vérité fondée, elle doit être fournie en tant que champ distinct dans l’ensemble de données. Le champ de vérité fondée doit être aligné individuellement sur chaque scénario de test. |
|
Représentativité des données |
Les ensembles de données doivent refléter toutes les tâches que l’agent IA ou le workflow agentique gérera. Incluez des cas limites et des scénarios sujets aux pannes pour vous assurer que vous effectuez des tests par rapport à des scénarios réels courants. |