평가(Evaluations) 개요

n8n 평가 기능을 사용하여 신뢰할 수 있는 AI 워크플로를 구축하세요. 알려진 테스트 케이스의 출력 결과를 비교하여 LLM 기반 워크플로의 신뢰성을 확보합니다.

평가란 무엇인가? # 평가(Evaluation)는 AI 워크플로의 신뢰성을 확인하는 데 매우 중요한 기법입니다. 이는 불안정한 개념 증명(proof of concept)과 견고한 프로덕션 워크플로의 차이를 만들어 낼 수 있습니다. 구축 단계와 프로덕션 배포 이후 모두 중요합니다. 평가의 기본은 테스트 데이터셋을 워크플로에 실행하는 것입니다. 이 데이터셋에는 여러 테스트 케이스가 포함되어 있습니다. 각 테스트 케이스에는 워크플로의 샘플 입력값이 포함되어 있으며, 대부분의 경우 예상 출력값도 포함됩니다. 평가를 통해 다음이 가능합니다: 다양한 입력값에 걸쳐 워크플로를 테스트 하여 엣지 케이스에서의 성능을 파악 의도치 않게 다른 부분을 악화시키지 않고 자신 있게 변경 적용 다양한 모델 또는 프롬프트 간의 성능 비교 다음 동영상에서는 평가가 무엇인지, 왜 유용한지, 어떻게 작동하는지 설명합니다: 왜 평가가 필요한가? # AI 모델은 코드와 근본적으로 다릅니다. 코드는 결정론적이며 추론이 가능합니다. LLM은 블랙박스이기 때문에 이렇게 하기 어렵습니다. 대신, 데이터를 통해 실행하고 출력을 관찰함으로써 LLM 출력을 측정 해야 합니다. 모델이 프로덕션에서 처리해야 할 모든 엣지 케이스를 정확하게 반영하는 여러 입력값에 걸쳐 실행해 본 후에야 비로소 모델이 안정적으로 성능을 발휘한다는 확신을 가질 수 있습니다. 두 가지 유형의 평가 # 간단 평가(Light Evaluation, 배포 전) # 깔끔하고 포괄적인 데이터셋을 구축하는 것은 어렵습니다. 초기 구축 단계에서는 소수의 예시만 생성하는 것이 합리적인 경우가 많습니다. 이 예시들은 워크플로를 배포 가능한 상태(또는 개념 증명)까지 반복 개선하기에 충분할 수 있습니다. 공식적인 메트릭을 설정하지 않고도 결과를 시각적으로 비교하여 워크플로의 품질을 파악할 수 있습니다. 메트릭 기반 평가(Metric-based Evaluation, 배포 후) # 워크플로를 배포하면 프로덕션 실행에서 더 크고 대표성 있는 데이터셋을 쉽게 구축할 수 있습니다. 버그를 발견하면 해당 버그를 유발한 입력값을 데이터셋에 추가할 수 있습니다. 버그를 수정할 때는 수정 사항이 의도치 않게 다른 부분을 악화시키지 않았는지 확인하기 위해 전체 데이터셋을 워크플로에 다시 실행하는 회귀 테스트 를 수행하는 것이 중요합니다. 테스트 케이스가 너무 많아 개별적으로 확인하기 어렵기 때문에, 평가에서는 특정 특성을 나타내는 숫자값인 메트릭을 사용하여 출력 품질을 측정합니다. 이를 통해 실행 간의 품질 변화를 추적할 수도 있습니다. 평가 유형 비교 # 간단 평가(배포 전) 메트릭 기반 평가(배포 후) 반복마다 성능 개선폭 큼 작음 데이터셋 크기 소규모 대규모 데이터셋 소스 수동 생성 AI 생성 기타 프로덕션 실행 AI 생성 기타 실제 출력값 필수 필수 예상 출력값 선택 사항 필수 (일반적으로) 평가 메트릭 선택 사항 필수 더 알아보기 # 간단 평가 : 개발 중에 수동으로 선별한 테스트 케이스에 대해 AI 워크플로를 평가하는 데 적합합니다. 메트