Résultats de l’exécution de l’évaluation agentique
Découvrez les exécutions d’évaluation agentique et la signification des différents scores d’évaluation à partir de la page des résultats de l’évaluation agentique.
Vue d’ensemble des évaluations agentiques
Les évaluations agentiques mesurent la façon dont les agents IA et les workflows agentiques atteignent leurs objectifs. Un modèle de service Now LLM juge l’agent IA ou le workflow agentique en fonction des journaux d’exécution. La page des résultats d’une exécution d’évaluation affiche plusieurs mesures et scores mesurant l’achèvement des tâches et l’utilisation des outils.
Si vous exécutez une évaluation globale de l’achèvement de la tâche, la page des résultats affiche les actions recommandées pour l’agent IA ou le workflow agentique. Les actions recommandées vous donnent des suggestions de déploiement ou d’amélioration pour vous aider à vérifier que les workflows agentiques que vous déployez fonctionnent conformément à vos normes.
Une fois que vous avez examiné les résultats de votre évaluation, vous pouvez archiver votre évaluation ou la copier pour exécuter une autre évaluation avec les mêmes paramètres et le même ensemble de données.
Vous pouvez exporter les résultats de l’évaluation sous forme de rapport. Le rapport est formaté sous la forme d’un fichier .csv qui inclut les sys_ids individuels des enregistrements d’exécution et les scores de mesure correspondants.
Pour plus d’informations sur l’utilisation de l’agent IA et d’autres analyses, vous pouvez consulter le tableau de bord d’analyse de l’agent IA dans le Studio d'agents IA.
Vue d’ensemble des résultats de l’évaluation
Pour chaque méthode d’évaluation que vous exécutez, la page des résultats affiche un score global pour le workflow agentique avec un pourcentage d’évaluations d’enregistrements réussies et une étiquette Excellent, Bon, Modéré ou Médiocre. Vous pouvez modifier les seuils de mesure pour chaque étiquette en sélectionnant Personnaliser les seuils de mesure.
Outre les résultats globaux de l’exhaustivité des tâches, vous pouvez consulter un résumé des résultats des autres mesures.
|
Étiquette |
Description |
Action recommandée |
Seuil par défaut |
|---|---|---|---|
|
Excellent |
Les tâches ont toujours été exécutées à un niveau élevé. Le workflow agentique ou l’agent IA fonctionne bien. |
Procédez en toute confiance |
90%–100% |
|
Bien |
La plupart des tâches ont été exécutées avec succès, mais certaines incohérences dans les performances suggèrent des domaines à améliorer. |
Déployer avec prudence |
70%–89% |
|
Modéré |
Un nombre important de tâches n’étaient pas entièrement terminées. Les performances sont inférieures au niveau souhaité. |
Enquêter sur les causes premières d’une mauvaise exécution des tâches |
50%–69% |
|
Médiocre |
Le workflow agentique échoue systématiquement à accomplir les tâches de manière adéquate. Des problèmes majeurs sont présents. |
Ne pas déployer |
0%–49% |
Scores de mesures d’enregistrements individuels
Les évaluations sont exécutées par rapport aux tables de journal des exécutions de workflow agentique. Chaque enregistrement est noté individuellement pour chaque plan d’évaluation que vous exécutez. Les évaluations des dossiers individuels sont notées en fonction des mesures suivantes.
|
Numéro |
Score |
Description |
|---|---|---|
|
3 |
Réussi |
La tâche principale était entièrement terminée. Toutes les sous-tâches ont été résolues et les étapes ont suivi une séquence logique sans erreurs critiques. |
|
2 |
Partiellement réussi |
La tâche était partiellement terminée. Certaines sous-tâches restent non résolues ou des inefficacités ont affecté le processus. |
|
1 |
En échec |
La tâche n’est pas terminée. Des sous-tâches critiques ont été abandonnées ou non résolues ou l’exécution a échoué entièrement. |
|
Numéro |
Score |
Description |
|---|---|---|
|
1 |
Vrai |
Le bon outil a été choisi pour l’action dans le plan. |
|
0 |
Faux |
Le bon outil n’a pas été choisi. |
|
Numéro |
Score |
Description |
|---|---|---|
|
1 |
Vrai |
L’exhaustivité de la clé d’entrée, l’exactitude de la valeur d’entrée et l’exactitude du format d’entrée sont toutes réussies.
|
|
0 |
Faux |
Un ou plusieurs des éléments d’exhaustivité de clé d’entrée, d’exhaustivité de la valeur d’entrée ou d’exhaustivité du format d’entrée n’ont pas réussi.
|