Évaluation de l’invite

  • Rversion finale: Yokohama
  • Mis à jour 30 janv. 2025
  • 2 minutes de lecture
  • L’évaluation de l’invite est un processus continu qui se produit pendant et après le développement et l’achèvement de l’invite.

    Vue d’ensemble de l’évaluation de l’invite

    Pour déterminer l’efficacité de votre invite, vous devez évaluer des lots de données de test. Vous devez copier les réponses générées par le modèle et effectuer des évaluations en dehors de Kit de compétences Now Assist.

    Pendant le développement d’invite

    Une évaluation continue et improvisée doit avoir lieu parallèlement à l’élaboration de l’invite. Cette évaluation continue vous permet d’adapter l’invite en fonction des sorties de modèle observées. Il peut être tentant de tester une modification d’une invite par rapport à un ou deux exemples, cependant, pour éviter de réagir au bruit, vous devez examiner des lots plus importants et considérer la signification statistique des différences de performances que vous avez observées.

    Graphique qui montre une comparaison des performances d’invite.

    Évaluation finale des performances

    Avant de déployer une compétence, vous devez tester l’invite sur un lot représentatif de données qui a été isolé du processus de développement, c’est-à-dire des données de « test ». Vous souhaitez utiliser des données de test isolées en raison d’un phénomène connu sous le nom de surajustement d’invite. La modification itérative d’une invite en fonction des sorties du modèle générées sur les mêmes données que celles utilisées pour le test peut entraîner une surestimation significative des performances. Ce résultat est dû au fait que l’invite peut devenir trop spécialisée dans les exemples spécifiques utilisés dans le développement. Même si l’effet est généralement moins spectaculaire que ce qui se produit lors de l’ajustement des paramètres du modèle d’apprentissage automatique à un ensemble de données de test, il est ancré dans les mêmes principes sous-jacents et doit être évité.

    Mesures d'évaluation

    La sélection des bonnes mesures pour l’évaluation est une considération importante. La liste suivante fournit quelques approches, chacune pouvant être plus ou moins appropriée selon le cas d’utilisation.

    • Évaluation basée sur la classification des générations courtes

      Cette approche nécessite des enregistrements étiquetés, et elle fonctionne mieux lorsque les étiquettes sont courtes et bien définies « bonnes réponses », par exemple, vrai ou faux, choix multiples ou sélection de catégorie. Dans ces cas, les sorties du modèle peuvent généralement être analysées et formatées, puis des mesures telles que la précision, le rappel, les scores F1, etc. peuvent être directement calculées.

    • Évaluation des générations plus longues

      La plupart des cas d’utilisation de l’IA générative les plus intéressants nécessitent des générations de modèles plus longues, et il existe de nombreuses « bonnes réponses » possibles. Dans ces cas, le résultat peut être noté (par des évaluateurs humains) selon plusieurs axes différents, par exemple :

      • Fidélité

        Le texte généré est-il fidèle au contexte fourni dans l’invite de compétence ? (Le contraire de la fidélité est l’hallucination, c’est-à-dire que le modèle injecte des informations hors contexte.)

      • Exactitude

        Le texte généré est-il correct par rapport à l’instruction de compétence ?

      • Serviabilité

        Le texte généré est-il utile par rapport à la tâche que la compétence souhaite accomplir ? (L’utilité est subjective, mais il est important d’essayer de mesurer. Pour le faire correctement, il faut une solide compréhension des besoins des personnes qui utiliseront finalement la compétence.)

      • Maîtrise

        Le texte généré est-il grammaticalement correct ? A-t-il des fautes de frappe, des problèmes de cohérence, etc.

      Remarque :
      Il est utile de noter ces propriétés sur une échelle, comme 1-5, plutôt qu’avec oui ou non.