평가 메트릭 및 계산

  • 릴리스 버전: Australia
  • 업데이트 날짜 2026년 03월 12일
  • 소요 시간: 3분
  • 대화를 평가하는 메트릭 및 조정된 점수 계산

    메트릭

    메트릭 선택 목록에는 선택한 날짜 범위에 대해 각 대화가 평가되는 모든 메트릭이 표시됩니다. 각 메트릭을 기준으로 평가 추세를 필터링할 수 있습니다. 다음과 같은 메트릭을 사용할 수 있습니다.
    메트릭 설명
    요청 완료 사용자의 의도를 정확하게 식별하고 필요한 모든 정보를 수집(슬롯 채우기)하여 사용자 요청을 완료하는 가상 에이전트의 기능을 측정합니다.
    의도 정확도 사용자 요청을 이해하여 관련 응답을 도출하는 가상 에이전트의 능력을 보여줍니다.
    슬롯 채우기 사용자 응답을 해석하고 필요한 질문에 대한 구조화된 답변을 추출하는 가상 에이전트의 기능을 보여줍니다.
    원활한 대화 흐름(교착 상태 방지) 가상 에이전트가 동적으로 응답하여 반복 없이 대화를 성공적으로 진행하는지 확인합니다.
    컨텍스트 보존 가상 에이전트가 요청 통역, 슬롯 채우기 등 대화 중에 제공된 정보를 유지하고 사용하는 데 성공했는지 여부를 표시합니다.
    진실성(환각 예방) 가상 에이전트가 조작 또는 기억 및 이해 실패를 제외하고 대화에 근거한 실제 응답을 생성했는지 여부를 표시합니다.
    간결성(중복 방지) 대화의 핵심 의도에 기여하지 않는 불필요하거나 장황하고 일반적인 응답을 피할 수 있도록 가상 에이전트의 기능을 확인합니다.
    일관성 가상 에이전트 응답의 명확한 논리적 플로우, 구조 및 구성을 확인합니다.
    사용자 만족도 대화가 평가된 다른 모든 메트릭의 가중 평균입니다.
    주:
    모든 메트릭은 3점 또는 5점 척도로 등급이 매겨지며 최종적으로 5점까지 확대됩니다.

    계산

    편차 계산 및 조정된 점수:

    자동 평가 점수를 시간 경과에 따른 사람의 판단에 맞추기 위해 편차가 계산되고 메트릭 수준에서 조정된 점수를 생성하는 데 사용됩니다.
    • 상한 편차

      조건: 지난 6개월 동안 자동 평가된 점수보다 높은 수동 레이블 점수의 수가 30개를 초과하는 경우

      계산: 이러한 케이스의 상위 90%를 취합하고 인적 점수와 자동 평가된 점수 간의 차이(델타)를 평균화합니다. 이 델타는 상한 편차입니다.

    • 하한 편차

      조건: 지난 6개월 동안 자동 평가된 점수보다 낮은 사람이 레이블링한 점수의 수가 30개를 초과하는 경우

      계산: 이러한 케이스의 상위 90%를 취합하고 인적 점수와 자동 평가된 점수 간의 차이(델타)를 평균화합니다. 이 델타는 하한 편차입니다.

    • 조정된 점수
      최종 조정 점수는 편차의 가용성에 따라 계산됩니다.
      • 지정된 메트릭에 대해 상한 및 하한 편차에 대한 30개 이상의 개별 평가에 레이블이 지정된 경우 오차 대역은 SUM(평균 레이블 지정 점수 – LLM 점수)/고유 평가로 계산됩니다. 이 오차 대역은 조정된 점수를 얻기 위해 자동 평가 점수에 추가됩니다.
      • 두 편차 모두 사용할 수 없는 경우 조정된 점수 = 자동 평가 점수
    평가 수준에서 자동 평가 사용자 만족도 점수, 인간 사용자 만족도 점수, 상한 및 하한 편차 계산:
    • 자동 평가 사용자 만족도 점수: 지정된 평가에 대해 LLM이 생성된 각 메트릭의 모든 점수를 가져오고 SUM(메트릭 점수 * 메트릭 가중치)/SUM(메트릭 가중치)을 계산합니다.
    • 인적 사용자 만족도 점수: 지정된 평가의 경우 하나 이상의 메트릭에 레이블이 지정되면 인적 사용자 만족도 점수를 계산하는 것으로 간주됩니다. 레이블이 지정된 경우 레이블 지정 점수가 사용되고, 그렇지 않으면 LLM 점수가 사용됩니다. SUM(메트릭 점수 * 메트릭 가중치)/SUM(메트릭 가중치)로 계산됩니다.
    • 격차: 격차는 (인적 사용자 만족도 점수 – 자동 평가 만족도 점수)로 계산됩니다.
    • 상한 편차: Gap이 양수이고 기록이 30개를 초과하는 경우 SUM(Positive Gap)/Distinct 평가에 의해 상위 90%의 오차 대역을 계산합니다. 이 오차 밴드는 자동 평가 사용자 만족도 점수에 추가됩니다.
    • Lower Deviation: Gap이 음수이고 기록이 30개를 초과하는 경우 SUM(Negative Gap)/Distinct 평가에 의해 상위 90%의 오차 대역을 계산합니다. 이 오차 밴드는 자동 평가 사용자 만족도 점수에 추가됩니다.
    • 조정된 사용자 만족도 점수는 SUM(Gap)/Distinct 평가로 계산됩니다.
    주:
    • 평가자는 사용자의 요청이 여러 개인 경우에도 채팅당 집계된 점수를 제공합니다.
    • Performance Analytics 표시기는 시간 경과에 따른 평균 점수를 계산하는 데 사용됩니다. 기록 데이터에 대해 일괄 작업을 실행하는 경우 퍼포먼스 분석 표시기 정의에 따라 이러한 평가는 집계된 점수의 평가 날짜에 계산되고 실제 채팅 날짜의 점수에 대해서는 계산되지 않습니다.