Avaliando o prompt

Yokohama Habilitar IA

Release

yokohama

ft:locale

pt-BR

ft:publication_title

Yokohama Habilitar IA

ft:clusterId

platai

bundleId

platai

workflow

Platform

Avaliando o prompt

Versão de lançamento: Yokohama

Atualizado 30 de jan. de 2025

2 min. de leitura

Avaliar o prompt é um processo contínuo que ocorre durante e após o desenvolvimento e a conclusão do prompt.

Visão geral da avaliação de prompt

Para determinar a eficácia do seu prompt, você deve avaliar lotes de dados de teste. Você deve copiar as respostas geradas pelo modelo e executar avaliações fora de Kit de habilidades do Now Assist.

Durante o desenvolvimento de prompts

A avaliação contínua e aprimorada deve ocorrer junto com o desenvolvimento do prompt. Essa avaliação contínua permite que você adapte o prompt com base nas saídas do modelo observadas. Pode ser tentador testar uma mudança em um prompt em apenas um ou dois exemplos. No entanto, para evitar reagir a ruídos, você deve observar lotes maiores e considerar a significância estatística das diferenças de desempenho observadas.

Gráfico que mostra uma comparação do desempenho do prompt.

Avaliação de desempenho final

Antes de implantar uma habilidade, você deve testar o prompt em um lote representativo de dados que foi isolado do processo de desenvolvimento, ou seja, dados de "teste". Você deseja usar dados de teste isolados devido a um problema conhecido como superajuste de prompt. Editar iterativamente um prompt com base nas saídas do modelo geradas nos mesmos dados usados para testes pode levar a superestimativas significativas do desempenho. Este resultado ocorre porque o prompt pode se tornar superespecializado para os exemplos específicos usados no desenvolvimento. Embora o efeito seja normalmente menos drástico do que o que ocorre ao ajustar os parâmetros do modelo de aprendizado de máquina a um conjunto de dados de teste, ele está enraizado nos mesmos princípios subjacentes e deve ser evitado.

Métricas de avaliação

Selecionar as métricas corretas para avaliação é uma consideração importante. A lista a seguir fornece algumas abordagens, cada uma das quais pode ser mais ou menos apropriada, dependendo do caso de uso.

Avaliação baseada em classificação de gerações curtas
Essa abordagem requer registros rotulados e funciona melhor quando os rótulos são curtos e "respostas certas" bem definidas, por exemplo, verdadeiro ou falso, múltipla escolha ou seleção de categoria. Nesses casos, as saídas do modelo geralmente podem ser analisadas e formatadas e, em seguida, métricas como precisão, recall, pontuações F1 e assim por diante podem ser calculadas diretamente.
Avaliação de gerações mais longas
Muitos dos casos de uso de IA generativa mais interessantes exigem gerações de modelo mais longas e há muitas “respostas corretas” possíveis. Nesses casos, a saída pode ser pontuada (por avaliadores humanos) em vários eixos diferentes, por exemplo:
- Fidelidade
  O texto gerado é confiável ao contexto fornecido no prompt de habilidade? (O oposto de fidelidade é alucinação, ou seja, o modelo injeta informações fora de contexto.)
- Exatidão
  O texto gerado está correto em relação à instrução de habilidade?
- Utilidade
  O texto gerado é útil em relação à tarefa que a habilidade deseja realizar? (A utilidade é subjetivo, mas é importante tentar medir. Fazer isso corretamente requer uma compreensão sólida das necessidades das pessoas que usarão a habilidade.)
- Fluência
  O texto gerado está gramaticalmente correto? Há erros de digitação, problemas de consistência e assim por diante?
Nota:
É útil pontuar essas propriedades em uma escala, como de 1 a 5, em vez de com sim ou não.