Directives générales pour l’évaluation des actifs de l’IA agentique
Découvrez les exécutions d’évaluation agentique et les différentes recommandations pour évaluer vos actifs d’IA agentique par rapport à des ensembles de données afin de vérifier l’achèvement, les performances et l’exécution de l’outil.
Vue d’ensemble des exécutions d’évaluation agentique
Les évaluations agentiques vous aident à vérifier que vos actifs IA agentique fonctionnent comme prévu dans différents scénarios et ensembles de données. Une évaluation régulière permet de maintenir la qualité et d’identifier les domaines à améliorer au fur et à mesure que vous développez vos actifs d’IA agentique.
Le processus d’évaluation utilise des tests automatisés pour mesurer les performances de vos actifs IA agentiques. Les mesures d’évaluation comprennent les tâches accomplies, l’exécution correcte des outils et le maintien des normes de performance. Vous pouvez également créer vos propres mesures personnalisées pour évaluer les réponses et les tâches des actifs IA agentiques d’une autre manière.
Quand exécuter des évaluations agentiques
Exécutez des évaluations agentiques à des moments clés de votre cycle de développement et de maintenance pour vérifier les performances et détecter les problèmes à un stade précoce.
- Exécuter après avoir testé manuellement l’exécution de base
- Avant d’exécuter une évaluation automatisée, testez manuellement l’exécution d’un agent IA ou d’un workflow agentique. Le test manuel vous permet d’identifier les problèmes évidents et de vérifier que la fonctionnalité de base fonctionne avant d’investir du temps dans une évaluation automatisée.
- Exécuter des évaluations agentiques lorsque vous apportez des changements significatifs
- Après avoir mis à jour le workflow agentique, exécutez une exécution d’évaluation agentique pour suivre l’efficacité de la nouvelle version. Cela inclut les changements apportés aux invites et aux configurations des outils qui peuvent affecter les performances.
- Exécuter les évaluations avant le déploiement en production
- Évaluez vos actifs d’IA agentique dans un environnement de tests avant de les déployer en production. Cela permet de vérifier que les changements fonctionnent correctement et de maintenir les niveaux de performances attendus.
- Exécuter des évaluations périodiques pour une surveillance continue
- Planifiez des cycles d’évaluation réguliers pour surveiller les performances continues de vos actifs IA agentiques. Cela permet de détecter la dégradation des performances au fil du temps et de garantir une qualité constante.
- Exécuter les évaluations après les changements de source de données
- Lorsque les sources de données ou les schémas sous-jacents changent, exécutez des évaluations pour vérifier que vos actifs IA agentiques continuent de fonctionner correctement avec la nouvelle structure de données.
Choisir une méthode d’évaluation
Sélectionnez des méthodes d’évaluation en fonction des aspects de la performance de vos actifs IA agentique que vous souhaitez mesurer. Différentes méthodes fournissent des informations sur différents aspects de la fonctionnalité.
- Passer en revue les options de méthode d’évaluation
- La configuration guidée de l’évaluation agentique fournit des informations sur chaque méthode d’évaluation, y compris ce qu’elle mesure et comment elle fonctionne. Vous pouvez également consulter les questions courantes dans la barre latérale pour obtenir des réponses sur les mesures disponibles. Prenez le temps de comprendre chaque méthode avant de choisir celles à utiliser.
- Utiliser plusieurs méthodes d’évaluation à la fois
- Le choix de plusieurs méthodes d’évaluation peut fournir une meilleure image globale des performances de l’actif IA agentique. Différentes méthodes mesurent différents aspects, tels que les taux d’achèvement des tâches, la précision des réponses et la réussite de l’exécution des outils.
- Prendre en compte les mesures d’achèvement des tâches pour la validation du workflow
- Les mesures d’achèvement des tâches vous aident à vérifier que vos workflows agentiques accomplissent correctement les tâches prévues et valident les fonctionnalités des workflows de bout en bout.
- Appliquer des mesures d’exécution de l’outil pour la validation technique
- Les mesures d’exécution des outils vérifient que vos actifs IA agentiques utilisent correctement les outils et les API pour lesquels ils sont configurés. Cette méthode permet de s’assurer que les intégrations fonctionnent comme prévu.
Création d’un jeu de données
Créez des ensembles de données ciblés qui représentent les scénarios et les données que vos actifs d’IA agentique rencontreront en production. Des ensembles de données bien conçus fournissent des résultats d’évaluation plus significatifs.
- Utiliser des filtres pour cibler les bonnes données
- Ajoutez des filtres aux journaux d’exécution pour contrôler exactement par rapport à quoi vous mesurez votre workflow agentique. Vous pouvez sélectionner Voir l’aperçu pour afficher une liste des enregistrements. Vous pouvez également utiliser les cases à cocher pour sélectionner des enregistrements individuels par rapport auxquels effectuer la mesure.
- Générer de nouvelles données d’exécution pour votre exécution d’évaluation
- Lors de la configuration guidée de l’évaluation agentique, vous pouvez créer de nouveaux journaux d’exécution sur plusieurs enregistrements avant le début de l’évaluation. Utilisez cette option pour réduire le temps et vous assurer de disposer de données récentes pour l’évaluation.
- Inclure divers scénarios dans votre jeu de données
- Créez des ensembles de données qui incluent divers scénarios que vos actifs IA agentique peuvent rencontrer, y compris les cas limites et les conditions d’erreur. Des ensembles de données complets permettent d’identifier les problèmes potentiels avant qu’ils n’affectent les utilisateurs.
- Maintenir la qualité et la pertinence des ensembles de données
- Examinez et mettez à jour régulièrement vos ensembles de données d’évaluation pour vous assurer qu’ils restent pertinents pour les cas d’utilisation actuels. Supprimez les scénarios obsolètes et ajoutez-en de nouveaux qui reflètent l’évolution des exigences ou des schémas de données.
- Prendre en compte le volume de données pour des résultats significatifs
- Incluez un volume de données suffisant dans vos ensembles de données pour générer des résultats statistiquement significatifs. Les petits ensembles de données peuvent ne pas révéler les schémas de performance ou les problèmes qui deviennent apparents avec des ensembles de données plus importants.
Interprétation des résultats d’évaluation
Comprendre les résultats de l’évaluation vous aide à prendre des décisions éclairées sur l’amélioration de vos actifs d’IA agentique et l’identification des domaines qui nécessitent une attention particulière.
- Analyser les tendances sur plusieurs exécutions d’évaluation
- Comparez les résultats de plusieurs exécutions d’évaluation pour identifier les tendances de performance. Recherchez des schémas qui indiquent une amélioration ou une diminution des performances au fil du temps.
- Se concentrer sur les mesures qui s’alignent sur les objectifs business
- Priorisez les mesures d’évaluation qui correspondent le mieux à vos objectifs business et aux exigences des utilisateurs. Toutes les mesures n’ont pas le même poids pour votre cas d’utilisation spécifique.
- Enquêter sur les résultats inattendus
- Lorsque les résultats de l’évaluation diffèrent considérablement des attentes, examinez les problèmes identifiés et leurs traces. Cela peut révéler des problèmes avec la configuration des actifs IA agentique, la qualité des données ou la configuration de l’évaluation.
Lignes directrices générales pour une évaluation efficace
Suivez ces directives générales pour maximiser la valeur de vos efforts d’évaluation agentique et garantir des résultats fiables.
- Établir des mesures de performance de base de référence
- Créez des mesures de base de référence lorsque vous déployez pour la première fois vos actifs d’IA agentique. Ces bases de référence fournissent des points de référence pour comparer les résultats des évaluations futures et suivre les améliorations.
- Surveiller les performances de l’évaluation au fil du temps
- Suivez les performances de vos processus d’évaluation au fil du temps. Cela inclut les durées d’exécution des évaluations, l’utilisation des ressources et la fiabilité de l’infrastructure d’évaluation.
- Validez périodiquement les méthodes d’évaluation
- Examinez et validez régulièrement vos méthodes d’évaluation pour vous assurer qu’elles continuent de fournir des informations significatives. Mettez à jour les méthodes à mesure que vos actifs d’IA agentique évoluent et que vos exigences changent.