Résultats de l’exécution de l’évaluation agentique

  • Rversion finale: Australia
  • Mis à jour 25 mars 2026
  • 4 minutes de lecture
  • Découvrez les exécutions d’évaluation agentique et la signification des différents scores d’évaluation à partir de la page des résultats de l’évaluation agentique.

    Vue d’ensemble des évaluations agentiques

    Les évaluations agentiques mesurent la façon dont les agents IA et les workflows agentiques atteignent leurs objectifs. Un modèle de service Now LLM juge l’agent IA ou le workflow agentique en fonction des journaux d’exécution. La page des résultats d’une exécution d’évaluation affiche plusieurs mesures et scores mesurant l’achèvement des tâches et l’utilisation des outils.

    Si vous exécutez une évaluation globale de l’achèvement de la tâche, la page des résultats affiche les actions recommandées pour l’agent IA ou le workflow agentique. Les actions recommandées vous donnent des suggestions de déploiement ou d’amélioration pour vous aider à vérifier que les workflows agentiques que vous déployez fonctionnent conformément à vos normes.

    Une fois que vous avez examiné les résultats de votre évaluation, vous pouvez archiver votre évaluation ou la copier pour exécuter une autre évaluation avec les mêmes paramètres et le même ensemble de données.

    Vous pouvez exporter les résultats de l’évaluation sous forme de rapport. Le rapport est formaté sous la forme d’un fichier .csv qui inclut les sys_ids individuels des enregistrements d’exécution et les scores de mesure correspondants.

    Pour plus d’informations sur l’utilisation de l’agent IA et d’autres analyses, vous pouvez consulter le tableau de bord d’analyse de l’agent IA dans le Studio d'agents IA.

    Vue d’ensemble des résultats de l’évaluation

    Pour chaque méthode d’évaluation que vous exécutez, la page des résultats affiche un score global pour le workflow agentique avec un pourcentage d’évaluations d’enregistrements réussies et une étiquette Excellent, Bon, Modéré ou Médiocre. Vous pouvez modifier les seuils de mesure pour chaque étiquette en sélectionnant Personnaliser les seuils de mesure.

    Outre les résultats globaux de l’exhaustivité des tâches, vous pouvez consulter un résumé des résultats des autres mesures.

    Tableau 1. Résultats de l’exécution de l’évaluation de l’exhaustivité de la tâche globale

    Étiquette

    Description

    Action recommandée

    Seuil par défaut

    Excellent

    Les tâches ont toujours été exécutées à un niveau élevé. Le workflow agentique ou l’agent IA fonctionne bien.

    Procédez en toute confiance

    90%–100%

    Bien

    La plupart des tâches ont été exécutées avec succès, mais certaines incohérences dans les performances suggèrent des domaines à améliorer.

    Déployer avec prudence

    70%–89%

    Modéré

    Un nombre important de tâches n’étaient pas entièrement terminées. Les performances sont inférieures au niveau souhaité.

    Enquêter sur les causes premières d’une mauvaise exécution des tâches

    50%–69%

    Médiocre

    Le workflow agentique échoue systématiquement à accomplir les tâches de manière adéquate. Des problèmes majeurs sont présents.

    Ne pas déployer

    0%–49%

    Scores de mesures d’enregistrements individuels

    Les évaluations sont exécutées par rapport aux tables de journal des exécutions de workflow agentique. Chaque enregistrement est noté individuellement pour chaque plan d’évaluation que vous exécutez. Les évaluations des dossiers individuels sont notées en fonction des mesures suivantes.

    Tableau 2. Scores de mesure de l’enregistrement d’exhaustivité de la tâche globaleLa mesure d’achèvement global de la tâche évalue si un agent IA termine avec succès la tâche qui lui a été affectée. Il évalue les journaux d’exécution de l’agent, en s’assurant que toutes les étapes requises ont été prises et que la tâche a été accomplie de manière logique et efficace.

    Numéro

    Score

    Description

    3

    Réussi

    La tâche principale était entièrement terminée. Toutes les sous-tâches ont été résolues et les étapes ont suivi une séquence logique sans erreurs critiques.

    2

    Partiellement réussi

    La tâche était partiellement terminée. Certaines sous-tâches restent non résolues ou des inefficacités ont affecté le processus.

    1

    En échec

    La tâche n’est pas terminée. Des sous-tâches critiques ont été abandonnées ou non résolues ou l’exécution a échoué entièrement.

    Tableau 3. Scores de mesures d’enregistrement des performances de l’outilLa mesure d’évaluation des performances de l’outil évalue la capacité d’un agent IA à sélectionner l’outil le plus approprié pour chaque étape tout en accomplissant une tâche.

    Numéro

    Score

    Description

    1

    Vrai

    Le bon outil a été choisi pour l’action dans le plan.

    0

    Faux

    Le bon outil n’a pas été choisi.

    Tableau 4. Enregistrements d’appels d’outils scores de mesuresLa mesure d’évaluation de l’appel d’outil évalue si un agent IA construit correctement les appels d’outils en validant l’exactitude, l’exhaustivité et le formatage des entrées qu’il fournit.

    Numéro

    Score

    Description

    1

    Vrai

    L’exhaustivité de la clé d’entrée, l’exactitude de la valeur d’entrée et l’exactitude du format d’entrée sont toutes réussies.

    • Input key completeness: 1 - Vrai : tous les paramètres requis sont présents avec des correspondances de nom exactes et aucun paramètre inattendu n’est inclus.
    • Input value correctness: 1 - Vrai : les valeurs d’entrée de l’outil sont correctement mappées.
    • Input format correctness: 1 - Vrai : les entrées de l’outil sont au format correct.

    0

    Faux

    Un ou plusieurs des éléments d’exhaustivité de clé d’entrée, d’exhaustivité de la valeur d’entrée ou d’exhaustivité du format d’entrée n’ont pas réussi.

    • Input key completeness: 0 - Faux : un paramètre obligatoire est manquant, son nom ne correspond pas exactement ou un paramètre inattendu a été trouvé.
    • Input value correctness: 0 - faux : les valeurs d’entrée de l’outil ne sont pas correctement mappées.
    • Input format correctness: 0 - faux : les entrées de l’outil ne sont pas au format approprié.
    Remarque :
    Les valeurs des sous-mesures sont agrégées à l’aide d’un opérateur ET. Si une valeur est égale à 0, le score de mesure de l’ensemble des enregistrements d’appel de l’outil est égal à 0.