Évaluation de l’invite
L’évaluation de l’invite est un processus continu qui se produit pendant et après son développement et son achèvement.
Vue d’ensemble de l’évaluation de l’invite
Pour déterminer l’efficacité de votre invite, vous devez évaluer des lots de données de test. Vous devez copier les réponses générées par le modèle et effectuer des évaluations en dehors de Kit de compétences Now Assist.
Pendant le développement de l’invite
Une évaluation continue et improvisée doit avoir lieu parallèlement à l’élaboration de l’invite. Cette évaluation continue vous permet d’adapter l’invite en fonction des sorties de modèle observées. Il peut être tentant de tester une modification d’une invite par rapport à un ou deux exemples, cependant, pour éviter de réagir au bruit, vous devez examiner des lots plus importants et considérer la signification statistique des différences de performance que vous avez observées.
Évaluation finale des performances
Avant de déployer une compétence, vous devez tester l’invite sur un lot représentatif de données qui a été isolé du processus de développement, c’est-à-dire des données « test ». Vous souhaitez utiliser des données de test isolées en raison d’un phénomène connu sous le nom de surajustement d’invite. La modification itérative d’une invite en fonction des sorties du modèle générées sur les mêmes données utilisées pour le test peut entraîner une surestimation significative des performances. Cela est dû au fait que l’invite peut devenir trop spécialisée par rapport aux exemples spécifiques utilisés dans le développement. Même si l’effet est généralement moins spectaculaire que ce qui se produit lors de l’ajustement des paramètres du modèle d’apprentissage automatique à un ensemble de données de test, il est ancré dans les mêmes principes sous-jacents et doit être évité.
Mesures d'évaluation
La sélection des bonnes mesures pour l’évaluation est une considération importante. La liste suivante présente quelques approches, chacune pouvant être plus ou moins appropriée selon le cas d’utilisation.
- Évaluation basée sur la classification des générations courtes
Cette approche nécessite des enregistrements étiquetés, et elle fonctionne mieux lorsque les étiquettes sont courtes et bien définies « bonnes réponses », par exemple, vrai ou faux, à choix multiples ou à sélection de catégories. Dans ces cas, les sorties du modèle peuvent généralement être analysées et formatées, puis des mesures telles que la précision, le rappel, les scores F1, etc. peuvent être directement calculées.
- Évaluation des générations plus longues
Bon nombre des cas d’utilisation les plus intéressants de l’IA générative nécessitent des générations de modèles plus longues, et il existe de nombreuses « bonnes réponses » possibles. Dans ces cas, les résultats peuvent être notés (par des évaluateurs humains) selon plusieurs axes différents, par exemple :
- Loyauté
Le texte généré est-il fidèle au contexte fourni dans l’invite de compétence ? (Le contraire de la fidélité est l’hallucination, c’est-à-dire que le modèle injecte des informations hors contexte.)
- Exactitude
Le texte généré est-il correct par rapport à l’instruction de compétence ?
- Utilité
Le texte généré est-il utile par rapport à la tâche que la compétence souhaite accomplir ? (L’utilité est subjective, mais il est important d’essayer de mesurer. Pour le faire correctement, il faut une solide compréhension des besoins des personnes qui utiliseront finalement la compétence.)
- Fluidité
Le texte généré est-il grammaticalement correct ? Y a-t-il des fautes de frappe, des problèmes de cohérence, etc.
Remarque :Il est utile de noter ces propriétés sur une échelle, comme 1-5, plutôt qu’avec oui ou non. - Loyauté