Avaliando o prompt
Avaliar o prompt é um processo contínuo que ocorre durante e após o desenvolvimento e a conclusão do prompt.
Visão geral da avaliação de prompt
Para determinar a eficácia do seu prompt, você deve avaliar lotes de dados de teste. Você deve copiar as respostas geradas pelo modelo e executar avaliações fora de Kit de habilidades do Now Assist.
Durante o desenvolvimento de prompts
A avaliação contínua e aprimorada deve ocorrer junto com o desenvolvimento do prompt. Essa avaliação contínua permite que você adapte o prompt com base nas saídas do modelo observadas. Pode ser tentador testar uma mudança em um prompt em apenas um ou dois exemplos. No entanto, para evitar reagir a ruídos, você deve observar lotes maiores e considerar a significância estatística das diferenças de desempenho observadas.
Avaliação de desempenho final
Antes de implantar uma habilidade, você deve testar o prompt em um lote representativo de dados que foi isolado do processo de desenvolvimento, ou seja, dados de "teste". Você deseja usar dados de teste isolados devido a um problema conhecido como superajuste de prompt. Editar iterativamente um prompt com base nas saídas do modelo geradas nos mesmos dados usados para testes pode levar a superestimativas significativas do desempenho. Este resultado ocorre porque o prompt pode se tornar superespecializado para os exemplos específicos usados no desenvolvimento. Embora o efeito seja normalmente menos drástico do que o que ocorre ao ajustar os parâmetros do modelo de aprendizado de máquina a um conjunto de dados de teste, ele está enraizado nos mesmos princípios subjacentes e deve ser evitado.
Métricas de avaliação
Selecionar as métricas corretas para avaliação é uma consideração importante. A lista a seguir fornece algumas abordagens, cada uma das quais pode ser mais ou menos apropriada, dependendo do caso de uso.
- Avaliação baseada em classificação de gerações curtas
Essa abordagem requer registros rotulados e funciona melhor quando os rótulos são curtos e "respostas certas" bem definidas, por exemplo, verdadeiro ou falso, múltipla escolha ou seleção de categoria. Nesses casos, as saídas do modelo geralmente podem ser analisadas e formatadas e, em seguida, métricas como precisão, recall, pontuações F1 e assim por diante podem ser calculadas diretamente.
- Avaliação de gerações mais longas
Muitos dos casos de uso de IA generativa mais interessantes exigem gerações de modelo mais longas e há muitas “respostas corretas” possíveis. Nesses casos, a saída pode ser pontuada (por avaliadores humanos) em vários eixos diferentes, por exemplo:
- Fidelidade
O texto gerado é confiável ao contexto fornecido no prompt de habilidade? (O oposto de fidelidade é alucinação, ou seja, o modelo injeta informações fora de contexto.)
- Exatidão
O texto gerado está correto em relação à instrução de habilidade?
- Utilidade
O texto gerado é útil em relação à tarefa que a habilidade deseja realizar? (A utilidade é subjetivo, mas é importante tentar medir. Fazer isso corretamente requer uma compreensão sólida das necessidades das pessoas que usarão a habilidade.)
- Fluência
O texto gerado está gramaticalmente correto? Há erros de digitação, problemas de consistência e assim por diante?
Nota:É útil pontuar essas propriedades em uma escala, como de 1 a 5, em vez de com sim ou não. - Fidelidade