프롬프트 평가
프롬프트 평가는 프롬프트 개발 및 완료 도중과 이후에 발생하는 지속적인 프로세스입니다.
프롬프트 평가 개요
프롬프트의 효과를 확인하려면 테스트 데이터 배치를 평가해야 합니다. 모델 생성 응답을 복사하고 외부에서 평가를 Now Assist 기술 키트수행해야 합니다.
프롬프트 개발 중
지속적이고 즉흥적인 평가는 프롬프트 개발과 함께 이루어져야 합니다. 이렇게 진행 중인 평가를 통해 관찰된 모델 출력을 기반으로 프롬프트를 조정할 수 있습니다. 한두 가지 예제에 대해 프롬프트에 대한 변경을 테스트하고 싶을 수 있지만 노이즈에 반응하지 않으려면 더 큰 배치를 살펴보고 관찰한 성능 차이의 통계적 유의성을 고려해야 합니다.
최종 성능 평가
기술을 배포하기 전에 개발 프로세스에서 분리된 대표적인 데이터 배치, 즉 "테스트" 데이터에서 프롬프트를 테스트해야 합니다. 프롬프트 과적합으로 알려진 현상 때문에 고립된 검정 데이터를 사용하려고 합니다. 테스트에 사용되는 것과 동일한 데이터에서 생성된 모델 출력을 기반으로 프롬프트를 반복적으로 편집하면 성능이 크게 과대 평가될 수 있습니다. 이러한 결과는 프롬프트가 개발에 사용된 특정 예제에 지나치게 전문화될 수 있기 때문입니다. 그 영향은 일반적으로 기계 학습 모델 매개변수를 테스트 데이터 세트에 맞출 때 발생하는 것보다 덜 극적이지만 동일한 기본 원칙에 뿌리를 두고 있으므로 피해야 합니다.
평가 메트릭
평가에 적합한 메트릭을 선택하는 것은 중요한 고려 사항입니다. 다음 목록에는 사용 사례에 따라 다소 적절할 수 있는 몇 가지 접근 방식이 나와 있습니다.
- 단기 세대의 분류 기반 평가
이 접근 방식에는 레이블이 지정된 기록이 필요하며, 레이블이 참 또는 거짓, 객관식 또는 범주 선택과 같이 짧고 잘 정의된 "정답"일 때 가장 효과적입니다. 이러한 경우 일반적으로 모델 출력을 구문 분석하고 형식을 지정한 다음 정밀도, 재현율, F1 점수 등과 같은 메트릭을 직접 계산할 수 있습니다.
- 더 긴 세대에 대한 평가
가장 흥미로운 생성형 AI 사용 사례 중 다수는 더 긴 모델 생성을 필요로 하며 가능한 "정답"이 많이 있습니다. 이러한 경우 출력은 다음과 같은 여러 다른 축을 따라 (인간 평가자에 의해) 채점 될 수 있습니다.
- 성실
생성된 텍스트가 기술 프롬프트에 제공된 컨텍스트에 충실합니까? (신실함의 반대는 환각이다. 즉, 모델이 맥락을 벗어난 정보를 주입한다는 것이다.)
- 정확도
생성된 텍스트가 기술 지침과 관련하여 올바릅니까?
- 도움이 됨
생성된 텍스트가 기술이 달성하려는 작업과 관련하여 유용합니까? (유용성은 주관적이지만 측정하려고 노력하는 것이 중요합니다. 이를 적절하게 수행하려면 궁극적으로 기술을 사용할 사람들의 요구 사항을 확실히 이해해야 합니다.)
- 유창
생성된 텍스트가 문법적으로 정확합니까? 오타, 일관성 문제 등이 있습니까?
주:이러한 속성을 예 또는 아니오보다는 1-5와 같은 척도로 점수를 매기는 것이 유용합니다. - 성실