지표 기반 평가

요약

지표 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 워크플로를 배포할 준비가 되면, 빌드 중에 테스트했던 것보다 더 많은 예제로 테스트하고 싶을 때가 많습니다. 예를 들어, 프로덕션 실행에서 엣지 케이스가 발생하기 시작하면, 이를 테스트 데이터셋에 추가하여 해당 케이스들이 커버되는지 확인하고 싶을 것입니다.

Pro 및 Enterprise 플랜에서 사용 가능

지표 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 등록된 커뮤니티 및 Starter 플랜 사용자도 단일 워크플로에 한해 사용할 수 있습니다.

지표 기반 평가란?#

워크플로를 배포할 준비가 되면, 빌드 중에 테스트했던 것보다 더 많은 예제로 테스트하고 싶을 때가 많습니다.

예를 들어, 프로덕션 실행에서 엣지 케이스가 발생하기 시작하면, 이를 테스트 데이터셋에 추가하여 해당 케이스들이 커버되는지 확인하고 싶을 것입니다.

프로덕션 데이터로 구축된 대규모 데이터셋의 경우, 결과를 눈으로만 보고 성능을 파악하기 어렵습니다. 대신 성능을 측정해야 합니다. 지표 기반 평가는 각 테스트 실행에 하나 이상의 점수를 부여할 수 있으며, 이를 이전 실행과 비교할 수 있습니다. 개별 점수는 전체 데이터셋의 성능을 측정하는 데 집계됩니다.

이 기능을 사용하면 지표를 계산하는 평가를 실행하고, 실행 간 지표 변화를 추적하며, 변화 원인을 상세히 분석할 수 있습니다.

지표는 결정론적 함수(예: 두 문자열 간의 거리)일 수도 있고, AI를 사용하여 계산할 수도 있습니다. 지표는 종종 출력이 참조 출력(정답이라고도 함)에서 얼마나 멀리 떨어져 있는지 확인하는 방식으로 이루어집니다. 이를 위해 데이터셋에 해당 참조 출력이 포함되어 있어야 합니다. 단, 일부 평가는 참조 출력이 필요하지 않습니다(예: 텍스트의 감정 또는 독성 확인).

작동 방식#

Google Sheets 자격 증명

평가는 데이터 테이블 또는 Google Sheets를 사용하여 테스트 데이터셋을 저장합니다. Google Sheets를 데이터셋 소스로 사용하려면 Google Sheets 자격 증명을 구성하세요.

간단한 평가 설정
워크플로에 지표 추가
평가 실행 및 결과 확인

1. 간단한 평가 설정#

설정 지침에 따라 데이터셋을 생성하고 워크플로에 연결하여 출력을 데이터셋에 다시 기록하세요.

다음 단계는 간단한 평가 문서와 동일한 지원 티켓 분류 워크플로를 사용합니다:

간단한 평가 워크플로

2. 워크플로에 지표 추가#

지표는 워크플로 출력을 점수화하는 데 사용되는 차원입니다. 지표는 종종 실제 워크플로 출력을 참조 출력과 비교합니다. AI를 사용하여 지표를 계산하는 것이 일반적이지만, 코드만으로 계산하는 것도 가능한 경우가 있습니다. n8n에서 지표는 항상 숫자입니다.

워크플로가 출력을 생성한 이후 시점에 지표를 계산하는 로직을 추가해야 합니다. 지표에서 사용하는 참조 출력은 데이터셋의 칼럼으로 추가할 수 있습니다. 이렇게 하면 평가 트리거에 의해 출력되므로 워크플로에서 사용할 수 있게 됩니다.

Set Metrics 작업을 사용하여 다음을 계산하세요:

Correctness (AI-based): 답변의 의미가 제공된 참조 답변과 일치하는지 여부. 1~5점 척도를 사용하며, 5점이 가장 좋습니다.
Helpfulness (AI-based): 응답이 주어진 질의에 답변하는지 여부. 1~5점 척도를 사용하며, 5점이 가장 좋습니다.
String Similarity: 답변이 참조 답변에 얼마나 가까운지, 문자별로 측정(편집 거리). 0~1 사이의 점수를 반환합니다.
Categorization: 답변이 참조 답변과 정확히 일치하는지 여부. 일치하면 1, 그렇지 않으면 0을 반환합니다.
Tools Used: 실행 중 도구를 사용했는지 여부. 0~1 사이의 점수를 반환합니다.

커스텀 지표를 추가할 수도 있습니다. 워크플로 내에서 지표를 계산한 후 Evaluation node에 매핑하면 됩니다. Set Metrics 작업을 사용하고 Metric으로 Custom Metrics를 선택하세요. 그런 다음 반환할 지표의 이름과 값을 설정할 수 있습니다.

예시:

RAG 문서 관련성: 벡터 데이터베이스로 작업할 때, 검색된 문서가 질문과 관련이 있는지 여부.

지표 계산은 지연 시간과 비용을 증가시킬 수 있으므로, 평가를 실행할 때만 계산하고 프로덕션 실행 시에는 건너뛰고 싶을 수 있습니다. 이는 지표 로직을 'check if evaluating' 작업 뒤에 배치하여 구현할 수 있습니다.

Check if evaluating node

3. 평가 실행 및 결과 확인#

워크플로의 Evaluations 탭으로 전환하고 Run Test 버튼을 클릭하세요. 평가가 시작됩니다. 평가가 완료되면 각 지표의 요약 점수가 표시됩니다.

테스트 실행 행을 클릭하면 각 테스트 케이스의 결과를 확인할 수 있습니다. 개별 테스트 케이스를 클릭하면 해당 케이스를 생성한 실행이 (새 탭에서) 열립니다.

테스트 케이스 병렬 실행#

동시성을 지원하는 플랜에서 Run Test는 분할 버튼입니다. 오른쪽의 캐럿을 클릭하면 동시에 실행할 테스트 케이스 수를 제어하는 슬라이더가 있는 팝오버가 열립니다.

![동시성 팝오버가 3/5로 열린 Run Test 분할 버튼](/_images/advanced-ai/evaluations/run-test-concurrency.png)

최대 5개의 병렬 테스트 케이스 중 슬라이더가 3으로 설정된 동시성 팝오버.

기본 최대값은 플랜에 따라 다릅니다:

플랜	최대 병렬 테스트 케이스 수
Community / Pro	1 (순차 실행)
Business	3
Enterprise	5

최대값이 1인 경우, 캐럿과 팝오버는 숨겨지고 Run Test는 일반 버튼으로 표시됩니다. 실행은 순차적으로 이루어지며, 이전 버전과 동일합니다.

셀프 호스팅 인스턴스는 플랜 등급에 관계없이 N8N_CONCURRENCY_EVALUATION_LIMIT 환경 변수를 사용하여 최대값을 재정의할 수 있습니다.

LLM 요청 제한

동시성이 높을수록 평가 실행 속도가 빨라지지만 업스트림 LLM 요청 제한에 도달할 가능성이 높아집니다. 요청 제한 오류가 발생하면 슬라이더를 낮추세요.

지표 기반 평가

n8n v2.25

원문 보기

번역일: 2026-06-11

요약

Pro 및 Enterprise 플랜에서 사용 가능

지표 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 등록된 커뮤니티 및 Starter 플랜 사용자도 단일 워크플로에 한해 사용할 수 있습니다.

지표 기반 평가란?#

워크플로를 배포할 준비가 되면, 빌드 중에 테스트했던 것보다 더 많은 예제로 테스트하고 싶을 때가 많습니다.

이 기능을 사용하면 지표를 계산하는 평가를 실행하고, 실행 간 지표 변화를 추적하며, 변화 원인을 상세히 분석할 수 있습니다.

작동 방식#

Google Sheets 자격 증명

간단한 평가 설정
워크플로에 지표 추가
평가 실행 및 결과 확인

1. 간단한 평가 설정#

설정 지침에 따라 데이터셋을 생성하고 워크플로에 연결하여 출력을 데이터셋에 다시 기록하세요.

다음 단계는 간단한 평가 문서와 동일한 지원 티켓 분류 워크플로를 사용합니다:

간단한 평가 워크플로

2. 워크플로에 지표 추가#

Set Metrics 작업을 사용하여 다음을 계산하세요:

Correctness (AI-based): 답변의 의미가 제공된 참조 답변과 일치하는지 여부. 1~5점 척도를 사용하며, 5점이 가장 좋습니다.
Helpfulness (AI-based): 응답이 주어진 질의에 답변하는지 여부. 1~5점 척도를 사용하며, 5점이 가장 좋습니다.
String Similarity: 답변이 참조 답변에 얼마나 가까운지, 문자별로 측정(편집 거리). 0~1 사이의 점수를 반환합니다.
Categorization: 답변이 참조 답변과 정확히 일치하는지 여부. 일치하면 1, 그렇지 않으면 0을 반환합니다.
Tools Used: 실행 중 도구를 사용했는지 여부. 0~1 사이의 점수를 반환합니다.

예시:

RAG 문서 관련성: 벡터 데이터베이스로 작업할 때, 검색된 문서가 질문과 관련이 있는지 여부.

Check if evaluating node

3. 평가 실행 및 결과 확인#

워크플로의 Evaluations 탭으로 전환하고 Run Test 버튼을 클릭하세요. 평가가 시작됩니다. 평가가 완료되면 각 지표의 요약 점수가 표시됩니다.

테스트 케이스 병렬 실행#

![동시성 팝오버가 3/5로 열린 Run Test 분할 버튼](/_images/advanced-ai/evaluations/run-test-concurrency.png)

최대 5개의 병렬 테스트 케이스 중 슬라이더가 3으로 설정된 동시성 팝오버.

기본 최대값은 플랜에 따라 다릅니다:

플랜	최대 병렬 테스트 케이스 수
Community / Pro	1 (순차 실행)
Business	3
Enterprise	5

최대값이 1인 경우, 캐럿과 팝오버는 숨겨지고 Run Test는 일반 버튼으로 표시됩니다. 실행은 순차적으로 이루어지며, 이전 버전과 동일합니다.

셀프 호스팅 인스턴스는 플랜 등급에 관계없이 N8N_CONCURRENCY_EVALUATION_LIMIT 환경 변수를 사용하여 최대값을 재정의할 수 있습니다.

LLM 요청 제한