Évaluation de l’invite
L’évaluation de l’invite est un processus continu qui se produit pendant et après le développement et l’achèvement de l’invite.
Vue d’ensemble de l’évaluation de l’invite
Pour déterminer l’efficacité de votre invite, vous devez évaluer des lots de données de test. Vous devez copier les réponses générées par le modèle et effectuer des évaluations en dehors de Kit de compétences Now Assist.
Pendant le développement d’invite
Une évaluation continue et improvisée doit avoir lieu parallèlement à l’élaboration de l’invite. Cette évaluation continue vous permet d’adapter l’invite en fonction des sorties de modèle observées. Il peut être tentant de tester une modification d’une invite par rapport à un ou deux exemples, cependant, pour éviter de réagir au bruit, vous devez examiner des lots plus importants et considérer la signification statistique des différences de performances que vous avez observées.
Évaluation finale des performances
Avant de déployer une compétence, vous devez tester l’invite sur un lot représentatif de données qui a été isolé du processus de développement, c’est-à-dire des données de « test ». Vous souhaitez utiliser des données de test isolées en raison d’un phénomène connu sous le nom de surajustement d’invite. La modification itérative d’une invite en fonction des sorties du modèle générées sur les mêmes données que celles utilisées pour le test peut entraîner une surestimation significative des performances. Ce résultat est dû au fait que l’invite peut devenir trop spécialisée dans les exemples spécifiques utilisés dans le développement. Même si l’effet est généralement moins spectaculaire que ce qui se produit lors de l’ajustement des paramètres du modèle d’apprentissage automatique à un ensemble de données de test, il est ancré dans les mêmes principes sous-jacents et doit être évité.
Mesures d'évaluation
La sélection des bonnes mesures pour l’évaluation est une considération importante. La liste suivante fournit quelques approches, chacune pouvant être plus ou moins appropriée selon le cas d’utilisation.
- Évaluation basée sur la classification des générations courtes
Cette approche nécessite des enregistrements étiquetés, et elle fonctionne mieux lorsque les étiquettes sont courtes et bien définies « bonnes réponses », par exemple, vrai ou faux, choix multiples ou sélection de catégorie. Dans ces cas, les sorties du modèle peuvent généralement être analysées et formatées, puis des mesures telles que la précision, le rappel, les scores F1, etc. peuvent être directement calculées.
- Évaluation des générations plus longues
La plupart des cas d’utilisation de l’IA générative les plus intéressants nécessitent des générations de modèles plus longues, et il existe de nombreuses « bonnes réponses » possibles. Dans ces cas, le résultat peut être noté (par des évaluateurs humains) selon plusieurs axes différents, par exemple :
- Fidélité
Le texte généré est-il fidèle au contexte fourni dans l’invite de compétence ? (Le contraire de la fidélité est l’hallucination, c’est-à-dire que le modèle injecte des informations hors contexte.)
- Exactitude
Le texte généré est-il correct par rapport à l’instruction de compétence ?
- Serviabilité
Le texte généré est-il utile par rapport à la tâche que la compétence souhaite accomplir ? (L’utilité est subjective, mais il est important d’essayer de mesurer. Pour le faire correctement, il faut une solide compréhension des besoins des personnes qui utiliseront finalement la compétence.)
- Maîtrise
Le texte généré est-il grammaticalement correct ? A-t-il des fautes de frappe, des problèmes de cohérence, etc.
Remarque :Il est utile de noter ces propriétés sur une échelle, comme 1-5, plutôt qu’avec oui ou non. - Fidélité