AI 평가 가이드라인

GitLab AI 기능의 품질을 보장하기 위한 중앙화된 평가 프레임워크(CEF) 사용법으로 수용 기준 설정, 평가 설계, 데이터셋 생성, 실행 및 결과 분석 방법을 설명합니다.

다소 예측 가능하게 동작하는 전통적인 소프트웨어 시스템과 달리 AI 기반 시스템은 사소한 입력 변경으로도 크게 다른 출력이 생성될 수 있습니다. 이러한 예측 불가능성은 AI 생성 응답의 비결정론적 특성에서 비롯됩니다. 전통적인 소프트웨어 테스트 방법은 이러한 변동성을 처리하도록 설계되지 않았기 때문에 AI 평가가 필수적이 되었습니다. AI 평가는 시스템 성능, 품질 및 신뢰성을 평가하기 위해 AI 출력을 분석하는 데이터 기반의 정량적 프로세스입니다. 중앙화된 평가 프레임워크(CEF) 는 GitLab에서 AI 기능을 평가하기 위한 간소화된 통합 접근 방식을 제공합니다. 이는 AI 기반 기능의 품질을 보장하기 위한 전략에 필수적입니다. 개념적으로 평가에는 세 가지 부분이 있습니다: 데이터셋 : 테스트 입력(및 선택적으로 예상 출력)의 모음. 대상 : 평가의 대상. 예를 들어, 프롬프트, 에이전트, 도구, 기능, 시스템 컴포넌트 또는 애플리케이션 전체. 메트릭 : AI 생성 출력을 평가하는 데 사용되는 측정 가능한 기준. 각 부분은 아래에 설명된 대로 평가 프로세스에서 역할을 합니다: 수용 기준 설정 : 올바른 대상 동작을 나타내는 메트릭을 정의합니다. 평가 설계 : 기준을 평가하기 위해 메트릭을 점수화하는 평가자와 시나리오를 설계합니다. 데이터셋 생성 : 일반적인 사용 패턴, 엣지 케이스 및 오류 조건을 포함하는 대표적인 예시를 수집합니다. 실행 : 데이터셋에 대해 대상 평가를 실행합니다. 결과 분석 : 결과를 수용 기준과 비교하고 개선 영역을 식별합니다. 반복 및 개선 : 평가 결과를 기반으로 필요한 조정을 합니다. 수용 기준 설정 # 대상 AI 기능 또는 컴포넌트가 올바르게 작동하는 시기를 결정하는 메트릭을 정의합니다. 선택한 메트릭은 원하는 비즈니스 결과가 달성되었을 때를 결정하는 성공 메트릭과 일치해야 합니다. 메트릭 유형 # 다음은 관련될 수 있는 메트릭의 예시입니다: 정확도 : AI 예측이 얼마나 자주 정확한지 측정합니다. 정밀도와 재현율 : 올바르게 식별된 긍정 결과와 실제 긍정 수 사이의 균형을 평가합니다. F1 점수 : 정밀도와 재현율을 하나의 메트릭으로 결합합니다. 지연 시간 : 응답을 생성하는 데 걸리는 시간을 측정합니다. 토큰 사용량 : 토큰 소비 측면에서 모델의 효율성을 평가합니다. 간결성 및 일관성 : AI 출력의 명확성과 논리적 일관성을 평가합니다. 일부 대상의 경우 여기에 나열된 일반 메트릭보다 도메인별 메트릭이 더 중요할 수 있습니다. 경우에 따라 올바른 메트릭을 선택하는 것은 여러 팀과 사용자의 피드백이 포함된 점진적이고 반복적인 발견 및 실험 프로세스입니다. 임계값 정의 # 가능하면 최소 허용 성능과 같이 각 메트릭에 대한 명확한 임계값을 설정합니다. 예를 들어: 정확도: 설명의 85% 이상이 기술적으로 정확해야 함 지연 시간: 95번째 백분위수 응답 시간이 3초 이하여야 함 새로운 메트릭에 대한 임계값을 정의하는 것이 불가능할 수 있습니다. 이는 특히 도메인별 메트릭에 적용됩니다. 일반적으로 허용 가능한