Évaluation de l’invite

  • Rversion finale: Australia
  • Mis à jour 31 juil. 2025
  • 2 minutes de lecture
  • L’évaluation de l’invite est un processus continu qui se produit pendant et après son développement et son achèvement.

    Vue d’ensemble de l’évaluation de l’invite

    Pour déterminer l’efficacité de votre invite, vous devez évaluer des lots de données de test. Vous devez copier les réponses générées par le modèle et effectuer des évaluations en dehors de Kit de compétences Now Assist.

    Pendant le développement de l’invite

    Une évaluation continue et improvisée doit avoir lieu parallèlement à l’élaboration de l’invite. Cette évaluation continue vous permet d’adapter l’invite en fonction des sorties de modèle observées. Il peut être tentant de tester une modification d’une invite par rapport à un ou deux exemples, cependant, pour éviter de réagir au bruit, vous devez examiner des lots plus importants et considérer la signification statistique des différences de performance que vous avez observées.

    Graphique qui montre une comparaison des performances de l’invite.

    Évaluation finale des performances

    Avant de déployer une compétence, vous devez tester l’invite sur un lot représentatif de données qui a été isolé du processus de développement, c’est-à-dire des données « test ». Vous souhaitez utiliser des données de test isolées en raison d’un phénomène connu sous le nom de surajustement d’invite. La modification itérative d’une invite en fonction des sorties du modèle générées sur les mêmes données utilisées pour le test peut entraîner une surestimation significative des performances. Cela est dû au fait que l’invite peut devenir trop spécialisée par rapport aux exemples spécifiques utilisés dans le développement. Même si l’effet est généralement moins spectaculaire que ce qui se produit lors de l’ajustement des paramètres du modèle d’apprentissage automatique à un ensemble de données de test, il est ancré dans les mêmes principes sous-jacents et doit être évité.

    Mesures d'évaluation

    La sélection des bonnes mesures pour l’évaluation est une considération importante. La liste suivante présente quelques approches, chacune pouvant être plus ou moins appropriée selon le cas d’utilisation.

    • Évaluation basée sur la classification des générations courtes

      Cette approche nécessite des enregistrements étiquetés, et elle fonctionne mieux lorsque les étiquettes sont courtes et bien définies « bonnes réponses », par exemple, vrai ou faux, à choix multiples ou à sélection de catégories. Dans ces cas, les sorties du modèle peuvent généralement être analysées et formatées, puis des mesures telles que la précision, le rappel, les scores F1, etc. peuvent être directement calculées.

    • Évaluation des générations plus longues

      Bon nombre des cas d’utilisation les plus intéressants de l’IA générative nécessitent des générations de modèles plus longues, et il existe de nombreuses « bonnes réponses » possibles. Dans ces cas, les résultats peuvent être notés (par des évaluateurs humains) selon plusieurs axes différents, par exemple :

      • Loyauté

        Le texte généré est-il fidèle au contexte fourni dans l’invite de compétence ? (Le contraire de la fidélité est l’hallucination, c’est-à-dire que le modèle injecte des informations hors contexte.)

      • Exactitude

        Le texte généré est-il correct par rapport à l’instruction de compétence ?

      • Utilité

        Le texte généré est-il utile par rapport à la tâche que la compétence souhaite accomplir ? (L’utilité est subjective, mais il est important d’essayer de mesurer. Pour le faire correctement, il faut une solide compréhension des besoins des personnes qui utiliseront finalement la compétence.)

      • Fluidité

        Le texte généré est-il grammaticalement correct ? Y a-t-il des fautes de frappe, des problèmes de cohérence, etc.

      Remarque :
      Il est utile de noter ces propriétés sur une échelle, comme 1-5, plutôt qu’avec oui ou non.