Référence

Australie : activer l’IA

Release

australia

ft:locale

fr-FR

ft:publication_title

Australie : activer l’IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Référence pour les évaluations agentiques

Rversion finale: Australia

Mis à jour 18 mars 2026

2 minutes de lecture

Trouvez des documents de référence technique sur les rôles, les mesures et les formats de sortie des évaluations agentiques.

Tableau 1. Mesures standard disponibles
Mesure	Ce qu’il mesure	Vérité fondée requise
L'exhaustivité de la tâche	Si l’actif IA agentique répond entièrement au besoin de l’utilisateur.	Facultatif
Précision de la réponse	Si la réponse de l’actif IA agentique est factuellement exacte	Recommandé
Ancrage	Si la réponse de l’actif IA agentique est fondée sur le contexte spécifique de la tâche	Non
Cohérence	Si la réponse de l’actif IA agentique est logiquement structurée et claire	Non
Précision d’utilisation de l’outil	Si l’actif IA agentique a sélectionné et utilisé le bon outil pour exécuter ses tâches	Facultatif
Respect des objectifs	Si l’actif IA agentique est resté dans son périmètre et ses instructions définis	Non

Les problèmes sont ventilés par comportement. Chaque mesure a ses propres problèmes identifiés séparément.

Tableau 2. Catégories de problèmes
Catégorie	Comportement de l’actif IA agentique
Réponse incomplète	La réponse n’a pas permis de répondre à la demande complète de l’utilisateur
Erreur factuelle	La réponse contenait un contenu qui n’est pas factuellement correct
Hallucination	La réponse contenait un contenu non fondé sur le contexte spécifique de la demande
Sortie incohérente	La réponse était désorganisée ou difficile à comprendre
Utilisation incorrecte de l’outil	Vous avez sélectionné le mauvais outil ou transmis des paramètres incorrects à un outil
Violation du périmètre	Réponse à une demande en dehors de son périmètre opérationnel défini

Tableau 3. Exigences en matière de données pour les ensembles de données dans les évaluations agentiques
Besoin	Description
Nombre minimal de scénarios de tests	Un nombre minimum de scénarios de tests est requis par exécution. Les mesures spécifiques que vous utilisez pour l’exécution peuvent avoir leurs propres scénarios de test minimum. Assurez-vous que votre ensemble de données répond aux exigences de toutes les mesures.
Formats pris en charge	CSV et JSON structuré sont pris en charge.
Champ de vérité fondée	Si vous utilisez une vérité fondée, elle doit être fournie en tant que champ distinct dans l’ensemble de données. Le champ de vérité fondée doit être aligné individuellement sur chaque scénario de test.
Représentativité des données	Les ensembles de données doivent refléter toutes les tâches que l’agent IA ou le workflow agentique gérera. Incluez des cas limites et des scénarios sujets aux pannes pour vous assurer que vous effectuez des tests par rapport à des scénarios réels courants.