Référence pour les évaluations agentiques

  • Rversion finale: Australia
  • Mis à jour 18 mars 2026
  • 2 minutes de lecture
  • Trouvez des documents de référence technique sur les rôles, les mesures et les formats de sortie des évaluations agentiques.

    Mesures disponibles

    Tableau 1. Mesures standard disponibles

    Mesure

    Ce qu’il mesure

    Vérité fondée requise

    L'exhaustivité de la tâche

    Si l’actif IA agentique répond entièrement au besoin de l’utilisateur.

    Facultatif

    Précision de la réponse

    Si la réponse de l’actif IA agentique est factuellement exacte

    Recommandé

    Ancrage

    Si la réponse de l’actif IA agentique est fondée sur le contexte spécifique de la tâche

    Non

    Cohérence

    Si la réponse de l’actif IA agentique est logiquement structurée et claire

    Non

    Précision d’utilisation de l’outil

    Si l’actif IA agentique a sélectionné et utilisé le bon outil pour exécuter ses tâches

    Facultatif

    Respect des objectifs

    Si l’actif IA agentique est resté dans son périmètre et ses instructions définis

    Non

    Types de problèmes

    Les problèmes sont ventilés par comportement. Chaque mesure a ses propres problèmes identifiés séparément.

    Tableau 2. Catégories de problèmes

    Catégorie

    Comportement de l’actif IA agentique

    Réponse incomplète

    La réponse n’a pas permis de répondre à la demande complète de l’utilisateur

    Erreur factuelle

    La réponse contenait un contenu qui n’est pas factuellement correct

    Hallucination

    La réponse contenait un contenu non fondé sur le contexte spécifique de la demande

    Sortie incohérente

    La réponse était désorganisée ou difficile à comprendre

    Utilisation incorrecte de l’outil

    Vous avez sélectionné le mauvais outil ou transmis des paramètres incorrects à un outil

    Violation du périmètre

    Réponse à une demande en dehors de son périmètre opérationnel défini

    Exigences en matière de données

    Tableau 3. Exigences en matière de données pour les ensembles de données dans les évaluations agentiques

    Besoin

    Description

    Nombre minimal de scénarios de tests

    Un nombre minimum de scénarios de tests est requis par exécution. Les mesures spécifiques que vous utilisez pour l’exécution peuvent avoir leurs propres scénarios de test minimum. Assurez-vous que votre ensemble de données répond aux exigences de toutes les mesures.

    Formats pris en charge

    CSV et JSON structuré sont pris en charge.

    Champ de vérité fondée

    Si vous utilisez une vérité fondée, elle doit être fournie en tant que champ distinct dans l’ensemble de données. Le champ de vérité fondée doit être aligné individuellement sur chaque scénario de test.

    Représentativité des données

    Les ensembles de données doivent refléter toutes les tâches que l’agent IA ou le workflow agentique gérera. Incluez des cas limites et des scénarios sujets aux pannes pour vous assurer que vous effectuez des tests par rapport à des scénarios réels courants.