프롬프트 평가

  • 릴리스 버전: Australia
  • 업데이트 날짜 2025년 07월 31일
  • 소요 시간: 2분
  • 프롬프트 평가는 프롬프트 개발 및 완료 도중과 이후에 발생하는 지속적인 프로세스입니다.

    프롬프트 평가 개요

    프롬프트의 효과를 판단하려면 테스트 데이터 배치를 평가해야 합니다. 모델에서 생성된 응답을 복사하고 외부에서 Now Assist 기술 키트평가를 수행해야 합니다.

    프롬프트 개발 중

    프롬프트 개발과 함께 지속적인 즉석 평가가 이루어져야 합니다. 이 지속적인 평가를 통해 관찰된 모델 출력을 기반으로 프롬프트를 조정할 수 있습니다. 프롬프트에 대한 변경 내용을 한두 개의 예제에 대해 테스트하고 싶은 유혹이 있을 수 있지만 노이즈에 반응하지 않으려면 더 큰 배치를 살펴보고 관찰한 성능 차이의 통계적 유의성을 고려해야 합니다.

    프롬프트 성능을 비교한 차트입니다.

    최종 성과 평가

    기술을 배포하기 전에 개발 프로세스에서 격리된 대표 데이터 배치, 즉 "테스트" 데이터에서 프롬프트를 테스트해야 합니다. 프롬프트 과적합이라는 현상 때문에 분리된 검정 데이터를 사용하려고 합니다. 테스트에 사용되는 동일한 데이터에서 생성된 모델 출력을 기반으로 프롬프트를 반복적으로 편집하면 성능이 상당히 과대 평가될 수 있습니다. 이러한 결과는 프롬프트가 개발에 사용되는 특정 예제에 대해 지나치게 전문화될 수 있기 때문입니다. 이 효과는 일반적으로 기계 학습 모델 매개변수를 테스트 데이터 세트에 맞출 때 발생하는 것보다 덜 극적이지만 동일한 기본 원칙에 뿌리를 두고 있으므로 피해야 합니다.

    평가 메트릭

    평가에 적합한 메트릭을 선택하는 것은 중요한 고려 사항입니다. 다음 목록에는 사용 사례에 따라 각각이 적절할 수 있는 몇 가지 접근 방식이 나와 있습니다.

    • 단기 세대에 대한 분류 기반 평가

      이 접근 방식에는 레이블이 있는 기록이 필요하며, 레이블이 짧고 잘 정의된 "정답"(예: 참 또는 거짓, 객관식 또는 범주 선택)일 때 가장 효과적입니다. 이러한 경우 일반적으로 모델 출력을 구문 분석하고 형식을 지정한 다음 정밀도, 재현율, F1 점수 등과 같은 메트릭을 직접 계산할 수 있습니다.

    • 더 긴 세대 평가

      가장 흥미로운 생성형 AI 사용 사례 중 다수는 더 긴 모델 생성이 필요하며 가능한 "정답"이 많이 있습니다. 이러한 경우 출력은 다음과 같은 여러 다른 축을 따라 점수를 매길 수 있습니다(사람 평가자에 의해).

      • 충실도

        생성된 텍스트가 기술 프롬프트에 제공된 컨텍스트에 충실합니까? (충실함의 반대는 환각으로, 즉 모델이 맥락에서 벗어난 정보를 주입한다는 것입니다.)

      • 정확도

        생성된 텍스트가 기술 지침과 관련하여 올바릅니까?

      • 유용함

        생성된 텍스트가 기술이 수행하려는 작업에 대해 도움이 됩니까? (유용성은 주관적이지만 측정하는 것이 중요합니다. 그렇게 하려면 궁극적으로 기술을 사용할 사람들의 요구 사항을 확실히 이해해야 합니다.)

      • 유창성

        생성된 텍스트가 문법적으로 올바른가요? 오타, 일관성 문제 등이 있습니까?

      주:
      이러한 속성은 예 또는 아니오가 아닌 1-5와 같은 척도로 점수를 매기는 것이 유용합니다.