에이전트 평가 실행 결과

  • 릴리스 버전: Australia
  • 업데이트 날짜 2026년 03월 25일
  • 소요 시간: 3분
  • 에이전트 평가 실행에 대해 알아보고 에이전트 평가 결과 페이지에서 다양한 평가 점수의 의미를 알아봅니다.

    에이전트 평가 개요

    에이전트 기반 평가는 AI 에이전트와 에이전틱 워크플로우가 목표를 얼마나 잘 달성하고 있는지 측정합니다. Now LLM 서비스 모델은 실행 로그를 기반으로 AI 에이전트 또는 에이전틱 워크플로우를 판단합니다. 평가 실행의 결과 페이지에는 작업 완성도와 도구 사용을 측정하는 여러 메트릭과 점수가 표시됩니다.

    전체 작업 완료 평가를 실행하는 경우 결과 페이지에 AI 에이전트 또는 에이전틱 워크플로우에 대한 권장 작업이 표시됩니다. 권장 작업은 배포하는 에이전틱 워크플로우가 표준에 따라 수행되고 있는지 확인하는 데 도움이 되는 배포 또는 개선에 대한 제안을 제공합니다.

    평가 결과를 검토한 후에는 평가를 보관하거나 복사하여 동일한 매개변수 및 데이터 세트로 다른 평가를 실행할 수 있습니다.

    평가 결과를 보고서로 익스포트할 수 있습니다. 보고서는 실행 기록의 개별 sys_ids와 각 기록에 대한 메트릭 점수를 포함하는 .csv 파일로 형식이 지정되어 있습니다.

    AI 에이전트 사용 및 기타 분석에 대한 자세한 내용은 에서 AI 에이전트 스튜디오AI 에이전트 분석 대시보드를 검토할 수 있습니다.

    평가 결과 개요

    실행하는 각 평가 방법에 대해 결과 페이지에는 성공 기록 평가의 백분율 및 우수, 좋음, 보통 또는 나쁨 레이블과 함께 에이전트 워크플로우에 대한 전체 점수가 표시됩니다. 메트릭 임계값 사용자 지정을 선택하여 각 레이블에 대한 메트릭 임계값을 변경할 수 있습니다.

    전체 작업 완성도 결과 외에도 다른 메트릭의 결과 요약을 검토할 수 있습니다.

    표 1. 전체 작업 완성도 평가 실행 결과

    레이블

    설명

    권장 작업

    기본 임계값

    우수

    작업은 일관되게 높은 수준에서 수행되었습니다. 에이전틱 워크플로우 또는 AI 에이전트가 잘 작동하고 있습니다.

    안심하고 진행

    90%–100%

    좋음

    대부분의 작업이 성공적으로 수행되었지만 일부 성능 불일치는 개선 영역을 제안합니다.

    주의해서 배포

    70%–89%

    보통

    상당수의 작업이 완전히 완료되지 않았습니다. 성능이 원하는 수준 이하입니다.

    작업 완료 부진의 근본 원인 조사

    50%–69%

    불량

    에이전트 워크플로우가 지속적으로 작업을 적절하게 완료하지 못하고 있습니다. 주요 문제가 있습니다.

    배포 안 함

    0%–49%

    개별 기록 메트릭 점수

    에이전트 워크플로우 실행의 로그 테이블에 대해 평가가 실행됩니다. 실행하는 각 평가 계획에 대해 각 기록의 점수가 개별적으로 매겨집니다. 개별 기록 평가는 다음 메트릭에 따라 점수가 매겨집니다.

    표 2. 전체 작업 완성도 기록 메트릭 점수전체 작업 완성도 메트릭은 AI 에이전트가 할당된 작업을 성공적으로 완료하는지 여부를 평가합니다. 에이전트의 실행 로그를 평가하여 필요한 모든 단계가 수행되었고 작업이 논리적이고 효과적으로 완료되었는지 확인합니다.

    번호

    포인트

    설명

    3

    성공

    주요 작업이 완전히 완료되었습니다. 모든 하위 작업이 해결되었으며 단계는 심각한 오류 없이 논리적 순서를 따랐습니다.

    2

    부분적으로 성공

    작업이 부분적으로 완료되었습니다. 일부 하위 작업은 해결되지 않은 상태로 남아 있거나 비효율성이 프로세스에 영향을 미쳤습니다.

    1

    실패

    작업이 완료되지 않았습니다. 중요한 하위 작업이 포기 또는 해결되지 않았거나 실행이 완전히 실패했습니다.

    표 3. 도구 성능 기록 메트릭 점수도구 성능 평가 메트릭은 작업을 완료하는 동안 각 단계에 가장 적합한 도구를 선택하는 AI 에이전트의 능력을 평가합니다.

    번호

    포인트

    설명

    1

    계획의 작업에 적합한 도구가 선택되었습니다.

    0

    아니오

    올바른 도구가 선택되지 않았습니다.

    표 4. 도구 호출 기록 메트릭 점수도구 호출 평가 메트릭은 AI 에이전트가 제공하는 입력의 정확성, 완전성 및 서식을 검증하여 도구 호출을 올바르게 구성하는지 여부를 평가합니다.

    번호

    포인트

    설명

    1

    입력 키 완전성, 입력 값 정확성 및 입력 형식 정확성이 모두 성공했습니다.

    • Input key completeness: 1 - 예 – 모든 필수 매개변수가 정확한 이름이 일치하는 상태로 존재하며 예기치 않은 매개변수는 포함되지 않습니다.
    • Input value correctness: 1 - 예 - 도구 입력 값이 올바르게 매핑되었습니다.
    • Input format correctness: 1 - 예 – 도구 입력이 올바른 형식입니다.

    0

    아니오

    하나 이상의 입력 키 완전성, 입력 값 완전성 또는 입력 형식 완전성이 실패했습니다.

    • Input key completeness: 0 - False – 필수 매개변수가 없거나, 이름이 정확히 일치하지 않거나, 예기치 않은 매개변수가 발견되었습니다.
    • Input value correctness: 0 - 아니오 - 도구 입력 값이 올바르게 매핑되지 않았습니다.
    • Input format correctness: 0 - False – 도구 입력이 올바른 형식이 아닙니다.
    주:
    하위 메트릭의 값은 AND 연산자를 사용하여 집계됩니다. 한 값이 0이면 기록을 호출하는 전체 도구 메트릭 점수는 0이 됩니다.