활성 평가 실행의 상태를 모니터링하여 오류를 조기에 포착하고 결과를 검토할 준비가 되면 확인합니다.
이 태스크 정보
에이전트 기반 평가는 특히 대규모 데이터 세트의 경우 완료하는 데 시간이 걸릴 수 있습니다. 진행률을 모니터링하면 문제를 조기에 식별하고 결과를 검토할 준비가 되는 시기를 결정하는 데 도움이 됩니다.
프로시저
-
다음으로 이동 .
-
추적 가능한 상태의 평가를 선택합니다.
다음 두 위치에서 추적할 평가를 찾을 수 있습니다.
- 간략한 개요 섹션: 진행 중인 평가 카드에 최근 진행 중인 평가가 표시됩니다.
- 자동화된 평가 섹션: 이전 평가를 포함한 모든 평가
추적할 수 있는 평가에는 Run status진행 중 또는 작업 필요가 있습니다.
-
모니터링할 평가를 선택합니다.
현재 상태 및 진행률 정보가 표시된 평가 모니터링 상세 정보 페이지가 열립니다.
- 옵션:
상태가 작업 필요면 생성된 실행 로그를 검토합니다.
작업 필요 상태가 되는 가장 일반적인 이유는 실행 로그가 생성되었지만 평가 단계를 시작하기 전에 승인이 필요한 경우입니다.
-
데이터 세트 아티팩트를 검사하여 에이전틱 AI가 특정 기록에서 수행한 방법을 이해합니다.
개별 인시던트 또는 기타 기록을 열어 테스트 중에 에이전틱 AI 자산이 인시던트와 어떻게 상호 작용했는지 확인할 수 있습니다.
-
자세한 성능 정보를 보려면 실행 기록을 선택합니다.
그러면 에서 실행 상세 정보가 AI 에이전트 스튜디오열립니다. 여기서 에이전트 및 도구의 메시지 추론 및 처리를 포함하여 시뮬레이션된 사용자와 에이전틱 AI 간의 전체 대화를 검토할 수 있습니다.
-
대화 기록과 타임스탬프를 검토하여 상호작용 플로우를 이해합니다.
시작 구문과 대화 기록은 각 메시지의 타임스탬프를 포함하여 AI 에이전트가 시뮬레이션된 사용자와 상호작용한 방식에 대한 자세한 정보를 제공합니다.
- 옵션:
실행 로그를 검토했고 예상에 부합하는 경우 평가 시작을 선택하여 평가 단계를 시작합니다.
로그를 승인하면 LLM 판단 및 채점 단계가 시작됩니다. 이 단계에서는 실행 로그를 분석하고 AI 에이전트의 성능에 대한 정량적 점수를 제공합니다.
평가 상태가 진행 중 으로 변경되고 LLM 평가가 시작됩니다.
- 옵션:
LLM 평가 단계의 진행률을 모니터링합니다.
이 단계에서는 다음을 추적할 수 있습니다.
- 평가된 기록 수
- 남은 예상 시간
- 평가 중에 발생하는 모든 오류 또는 경고
- 옵션:
완료 알림 또는 상태 업데이트를 확인합니다.
평가가 완료되면 상태가 완료됨으로 변경되고 결과를 검토할 수 있게 됩니다.
결과
평가 진행률을 모니터링하고 필요한 경우 조치를 취할 수 있습니다. 평가가 성공적으로 완료되면 자세한 결과를 검토하여 에이전틱 AI의 성능을 이해할 수 있습니다.
다음에 수행할 작업
평가가 완료되면 결과를 검토하여 에이전틱 AI 구성에서 개선이 필요한 영역을 식별합니다. 평가 결과 분석에 대한 자세한 내용은 에이전트 기반 평가 결과 검토를 참조하십시오.