평가 지침

호주 AI 활성화

Release

australia

ft:locale

ko-KR

ft:publication_title

호주 AI 활성화

ft:clusterId

platai

bundleId

platai

workflow

Platform

에이전틱 AI 자산 평가에 대한 일반 가이드라인

릴리스 버전: Australia

업데이트 날짜 2025년 07월 31일

소요 시간: 5분

데이터 세트와 비교하여 에이전틱 AI 자산을 평가하여 완료, 성능 및 도구 실행을 확인하기 위한 에이전트 기반 평가 실행 및 다양한 권장 사항에 대해 알아봅니다.

에이전트 평가 실행 개요

에이전틱 평가는 에이전틱 AI 자산이 다양한 시나리오와 데이터 세트에서 예상대로 수행되는지 확인하는 데 도움이 됩니다. 정기적인 평가는 에이전틱 AI 자산을 개발할 때 품질을 유지하고 개선이 필요한 영역을 식별하는 데 도움이 됩니다.

평가 프로세스에서는 자동화된 테스트를 사용하여 에이전틱 AI 자산이 얼마나 잘 수행되는지 측정합니다. 평가 메트릭에는 작업 완료, 올바른 도구 실행 및 성능 표준 유지가 포함됩니다. 또한 고유한 사용자 지정 메트릭을 생성하여 에이전틱 AI 자산 응답 및 작업을 다른 방식으로 평가할 수도 있습니다.

에이전트 평가를 실행해야 하는 경우

개발 및 유지관리 주기의 주요 지점에서 에이전트 기반 평가를 실행하여 성능을 검증하고 조기에 문제를 포착합니다.

기본 실행을 수동으로 테스트한 후 실행: 자동화된 평가를 실행하기 전에 AI 에이전트 또는 에이전틱 워크플로우의 실행을 수동으로 테스트합니다. 수동 테스트는 자동화된 평가에 시간을 투자하기 전에 명백한 문제를 식별하고 기본 기능이 작동하는지 확인하는 데 도움이 됩니다.
중요한 변경 시 에이전트 기반 평가 실행: 에이전틱 워크플로우를 업데이트한 후 에이전틱 평가 실행을 실행하여 새 버전의 효과를 추적합니다. 여기에는 성능에 영향을 줄 수 있는 프롬프트 및 도구 구성에 대한 변경 사항이 포함됩니다.
프로덕션에 배포하기 전에 평가 실행: 프로덕션에 배포하기 전에 테스트 환경에서 에이전틱 AI 자산을 평가합니다. 이렇게 하면 변경 내용이 올바르게 작동하고 예상되는 성능 수준을 유지할 수 있습니다.
지속적인 모니터링을 위한 주기적 평가 실행: 정기적인 평가 실행을 예약하여 에이전틱 AI 자산의 지속적인 성능을 모니터링합니다. 이를 통해 시간이 지남에 따라 성능 저하를 감지하고 일관된 품질을 보장할 수 있습니다.
데이터 소스 변경 후 평가 실행: 기본 데이터 소스 또는 스키마가 변경되면 평가를 실행하여 에이전틱 AI 자산이 새 데이터 구조에서 계속 올바르게 작동하는지 확인합니다.

평가 방법 선택

측정하려는 에이전틱 AI 자산 성과의 측면에 따라 평가 방법을 선택합니다. 다양한 방법이 기능의 다양한 측면에 대한 통찰력을 제공합니다.

평가 방법 옵션 검토: 에이전트 기반 평가 안내 설정은 측정 대상 및 작동 방식을 포함하여 각 평가 방법에 대한 정보를 제공합니다. 사이드바의 일반적인 질문을 검토하여 사용 가능한 메트릭에 대한 답변을 얻을 수도 있습니다. 사용할 방법을 선택하기 전에 시간을 내어 각 방법을 이해하십시오.
한 번에 여러 평가 방법 사용: 여러 평가 방법을 선택하면 에이전틱 AI 자산의 성과에 대한 전반적인 그림을 더 잘 파악할 수 있습니다. 다양한 방법은 작업 완료율, 응답 정확도 및 도구 실행 성공과 같은 다양한 측면을 측정합니다.
워크플로우 확인을 위한 작업 완료 메트릭 고려: 작업 완료 메트릭은 에이전틱 워크플로우가 의도한 작업을 성공적으로 완료하는지 확인하고 엔드 투 엔드 워크플로우 기능을 확인하는 데 도움이 됩니다.
기술 확인을 위해 도구 실행 메트릭 적용: 도구 실행 메트릭은 에이전틱 AI 자산이 액세스하도록 구성된 도구와 API를 올바르게 사용하는지 확인합니다. 이 방법을 사용하면 통합이 예상대로 작동하도록 할 수 있습니다.

데이터 세트 생성

에이전틱 AI 자산이 프로덕션에서 접하게 될 시나리오와 데이터를 나타내는 대상 데이터 세트를 생성합니다. 잘 설계된 데이터 세트는 보다 의미 있는 평가 결과를 제공합니다.

필터를 사용하여 올바른 데이터 대상 지정: 실행 로그에 필터를 추가하여 에이전트 워크플로우를 측정하는 대상을 정확하게 제어합니다. 미리 보기 보기를 선택하여 기록 목록을 볼 수 있습니다. 확인란을 사용하여 측정할 개별 기록을 선택할 수도 있습니다.
평가 실행에 대한 새 실행 데이터 생성: 에이전트 기반 평가 안내 설정을 진행할 때 평가를 시작하기 전에 여러 기록에 새 실행 로그를 만들 수 있습니다. 이 옵션을 사용하면 시간을 줄이고 평가를 위한 새로운 데이터를 확보할 수 있습니다.
데이터 세트에 다양한 시나리오 포함: 에지 케이스 및 오류 조건을 포함하여 에이전틱 AI 자산에 발생할 수 있는 다양한 시나리오를 포함하는 데이터 세트를 생성합니다. 포괄적인 데이터 세트는 사용자에게 영향을 미치기 전에 잠재적인 문제를 식별하는 데 도움이 됩니다.
데이터 세트 품질 및 관련성 유지: 평가 데이터 세트를 정기적으로 검토하고 업데이트하여 현재 사용 사례와 관련성을 유지하는지 확인합니다. 오래된 시나리오를 제거하고 변화하는 요구 사항 또는 데이터 패턴을 반영하는 새 시나리오를 추가합니다.
의미 있는 결과를 위해 데이터 볼륨 고려: 통계적으로 의미 있는 결과를 생성할 수 있도록 데이터 세트에 충분한 데이터 볼륨을 포함합니다. 데이터 세트가 작으면 데이터 세트가 클수록 분명해지는 성능 패턴이나 문제가 표시되지 않을 수 있습니다.

평가 결과 해석

평가 결과를 이해하면 에이전틱 AI 자산을 개선하고 주의가 필요한 영역을 식별하는 데 정보에 입각한 결정을 내리는 데 도움이 됩니다.

여러 평가 실행의 추세 분석: 여러 평가 실행의 결과를 비교하여 성능의 추세를 식별합니다. 시간이 지남에 따라 성능이 향상되거나 감소함을 나타내는 패턴을 찾습니다.
비즈니스 목표에 부합하는 메트릭에 집중: 비즈니스 목표 및 사용자 요구 사항에 가장 근접하게 부합하는 평가 메트릭의 우선순위를 지정합니다. 모든 메트릭이 특정 사용 사례에 대해 동일한 가중치를 갖는 것은 아닙니다.
예기치 않은 결과 조사: 평가 결과가 기대와 크게 다른 경우 식별된 문제와 그 흔적을 조사합니다. 이로 인해 에이전틱 AI 자산 구성, 데이터 품질 또는 평가 설정에 문제가 있을 수 있습니다.

효과적인 평가를 위한 일반 가이드라인

다음의 일반 가이드라인을 따라 에이전트 기반 평가 노력의 가치를 극대화하고 신뢰할 수 있는 결과를 얻으십시오.

기준선 성과 메트릭 설정: 에이전틱 AI 자산을 처음 배포할 때 기준선 측정값을 생성합니다. 이러한 기준선은 향후 평가 결과를 비교하고 개선을 추적하기 위한 참조점을 제공합니다.
시간 경과에 따른 평가 성과 모니터링: 시간 경과에 따라 평가 프로세스 자체가 어떻게 수행되는지 추적합니다. 여기에는 평가 실행 시간, 자원 사용량 및 평가 인프라의 신뢰성이 포함됩니다.
주기적인 평가 방법 확인: 평가 방법을 주기적으로 검토하고 확인하여 의미 있는 인사이트를 계속 제공하는지 확인합니다. 에이전틱 AI 자산이 발전하고 요구 사항이 변경됨에 따라 방법을 업데이트합니다.