AI 평가 가이드라인

다소 예측 가능하게 동작하는 전통적인 소프트웨어 시스템과 달리 AI 기반 시스템은 사소한 입력 변경으로도 크게 다른 출력이 생성될 수 있습니다. 이러한 예측 불가능성은 AI 생성 응답의 비결정론적 특성에서 비롯됩니다. 전통적인 소프트웨어 테스트 방법은 이러한 변동성을 처리하도록 설계되지 않았기 때문에 AI 평가가 필수적이 되었습니다. AI 평가는 시스템 성능, 품질 및 신뢰성을 평가하기 위해 AI 출력을 분석하는 데이터 기반의 정량적 프로세스입니다. 중앙화된 평가 프레임워크(CEF) 는 GitLab에서 AI 기능을 평가하기 위한 간소화된 통합 접근 방식을 제공합니다. 이는 AI 기반 기능의 품질을 보장하기 위한 전략에 필수적입니다. 개념적으로 평가에는 세 가지 부분이 있습니다: 데이터셋 : 테스트 입력(및 선택적으로 예상 출력)의 모음. 대상 : 평가의 대상. 예를 들어, 프롬프트, 에이전트, 도구, 기능, 시스템 컴포넌트 또는 애플리케이션 전체. 메트릭 : AI 생성 출력을 평가하