평가 메트릭 및 계산
대화를 평가하는 메트릭 및 조정된 점수 계산
메트릭
메트릭 선택 목록에는 선택한 날짜 범위에 대해 각 대화가 평가되는 모든 메트릭이 표시됩니다. 각 메트릭을 기준으로 평가 추세를 필터링할 수 있습니다. 다음과 같은 메트릭을 사용할 수 있습니다.
| 메트릭 | 설명 |
|---|---|
| 요청 완료 | 사용자의 의도를 정확하게 식별하고 필요한 모든 정보를 수집(슬롯 채우기)하여 사용자 요청을 완료하는 가상 에이전트의 기능을 측정합니다. |
| 의도 정확도 | 사용자 요청을 이해하여 관련 응답을 도출하는 가상 에이전트의 능력을 보여줍니다. |
| 슬롯 채우기 | 사용자 응답을 해석하고 필요한 질문에 대한 구조화된 답변을 추출하는 가상 에이전트의 기능을 보여줍니다. |
| 원활한 대화 흐름(교착 상태 방지) | 가상 에이전트가 동적으로 응답하여 반복 없이 대화를 성공적으로 진행하는지 확인합니다. |
| 컨텍스트 보존 | 가상 에이전트가 요청 통역, 슬롯 채우기 등 대화 중에 제공된 정보를 유지하고 사용하는 데 성공했는지 여부를 표시합니다. |
| 진실성(환각 예방) | 가상 에이전트가 조작 또는 기억 및 이해 실패를 제외하고 대화에 근거한 실제 응답을 생성했는지 여부를 표시합니다. |
| 간결성(중복 방지) | 대화의 핵심 의도에 기여하지 않는 불필요하거나 장황하고 일반적인 응답을 피할 수 있도록 가상 에이전트의 기능을 확인합니다. |
| 일관성 | 가상 에이전트 응답의 명확한 논리적 플로우, 구조 및 구성을 확인합니다. |
| 사용자 만족도 | 대화가 평가된 다른 모든 메트릭의 가중 평균입니다. |
주:
모든 메트릭은 3점 또는 5점 척도로 등급이 매겨지며 최종적으로 5점까지 확대됩니다.
계산
편차 계산 및 조정된 점수:
자동 평가 점수를 시간 경과에 따른 사람의 판단에 맞추기 위해 편차가 계산되고 메트릭 수준에서 조정된 점수를 생성하는 데 사용됩니다.
- 상한 편차
조건: 지난 6개월 동안 자동 평가된 점수보다 높은 수동 레이블 점수의 수가 30개를 초과하는 경우
계산: 이러한 케이스의 상위 90%를 취합하고 인적 점수와 자동 평가된 점수 간의 차이(델타)를 평균화합니다. 이 델타는 상한 편차입니다.
- 하한 편차
조건: 지난 6개월 동안 자동 평가된 점수보다 낮은 사람이 레이블링한 점수의 수가 30개를 초과하는 경우
계산: 이러한 케이스의 상위 90%를 취합하고 인적 점수와 자동 평가된 점수 간의 차이(델타)를 평균화합니다. 이 델타는 하한 편차입니다.
- 조정된 점수최종 조정 점수는 편차의 가용성에 따라 계산됩니다.
- 지정된 메트릭에 대해 상한 및 하한 편차에 대한 30개 이상의 개별 평가에 레이블이 지정된 경우 오차 대역은 SUM(평균 레이블 지정 점수 – LLM 점수)/고유 평가로 계산됩니다. 이 오차 대역은 조정된 점수를 얻기 위해 자동 평가 점수에 추가됩니다.
- 두 편차 모두 사용할 수 없는 경우 조정된 점수 = 자동 평가 점수
평가 수준에서 자동 평가 사용자 만족도 점수, 인간 사용자 만족도 점수, 상한 및 하한 편차 계산:
- 자동 평가 사용자 만족도 점수: 지정된 평가에 대해 LLM이 생성된 각 메트릭의 모든 점수를 가져오고 SUM(메트릭 점수 * 메트릭 가중치)/SUM(메트릭 가중치)을 계산합니다.
- 인적 사용자 만족도 점수: 지정된 평가의 경우 하나 이상의 메트릭에 레이블이 지정되면 인적 사용자 만족도 점수를 계산하는 것으로 간주됩니다. 레이블이 지정된 경우 레이블 지정 점수가 사용되고, 그렇지 않으면 LLM 점수가 사용됩니다. SUM(메트릭 점수 * 메트릭 가중치)/SUM(메트릭 가중치)로 계산됩니다.
- 격차: 격차는 (인적 사용자 만족도 점수 – 자동 평가 만족도 점수)로 계산됩니다.
- 상한 편차: Gap이 양수이고 기록이 30개를 초과하는 경우 SUM(Positive Gap)/Distinct 평가에 의해 상위 90%의 오차 대역을 계산합니다. 이 오차 밴드는 자동 평가 사용자 만족도 점수에 추가됩니다.
- Lower Deviation: Gap이 음수이고 기록이 30개를 초과하는 경우 SUM(Negative Gap)/Distinct 평가에 의해 상위 90%의 오차 대역을 계산합니다. 이 오차 밴드는 자동 평가 사용자 만족도 점수에 추가됩니다.
- 조정된 사용자 만족도 점수는 SUM(Gap)/Distinct 평가로 계산됩니다.
주:
- 평가자는 사용자의 요청이 여러 개인 경우에도 채팅당 집계된 점수를 제공합니다.
- Performance Analytics 표시기는 시간 경과에 따른 평균 점수를 계산하는 데 사용됩니다. 기록 데이터에 대해 일괄 작업을 실행하는 경우 퍼포먼스 분석 표시기 정의에 따라 이러한 평가는 집계된 점수의 평가 날짜에 계산되고 실제 채팅 날짜의 점수에 대해서는 계산되지 않습니다.