메트릭 기반 평가(Metric-based Evaluations)

메트릭 기반 평가를 사용하여 시간 경과에 따른 프로덕션 AI 기반 워크플로의 성능을 측정, 점수화 및 개선하는 방법을 설명합니다.

Pro 및 Enterprise 플랜에서 사용 가능 메트릭 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 등록된 커뮤니티 및 Starter 플랜 사용자도 단일 워크플로에 대해 사용할 수 있습니다. 메트릭 기반 평가란 무엇인가? # 워크플로가 배포 준비가 되면 구축 단계 보다 더 많은 예시를 테스트하고 싶을 것입니다. 예를 들어, 프로덕션 실행에서 엣지 케이스가 발생하기 시작하면 이를 테스트 데이터셋에 추가하여 해당 케이스가 제대로 처리되는지 확인하고 싶을 것입니다. 프로덕션 데이터로 구축된 것과 같은 대규모 데이터셋에서는 결과를 시각적으로만 보고 성능을 파악하기 어렵습니다. 대신 성능을 측정해야 합니다. 메트릭 기반 평가는 각 테스트 실행에 하나 이상의 점수를 할당할 수 있으며, 이를 이전 실행과 비교할 수 있습니다. 개별 점수는 전체 데이터셋의 성능을 측정하기 위해 집계됩니다. 이 기능을 사용하면 메트릭을 계산하는 평가를 실행하고, 실행 간에 해당 메트릭이 어떻게 변하는지 추적하며, 변화의 원인을 자세히 분석할 수 있습니다. 메트릭은 결정론적 함수(예: 두 문자열 간의 거리)이거나 AI를 사용하여 계산할 수도 있습니다. 메트릭은 종종 출력이 참조 출력 (ground truth라고도 함)에서 얼마나 멀리 떨어져 있는지 확인하는 과정을 포함합니다. 이를 위해 데이터셋에 참조 출력이 포함되어야 합니다. 단, 일부 평가에서는 이 참조 출력이 필요하지 않습니다(예: 감정 또는 독성 텍스트 검사). 작동 방식 # Google Sheets 자격증명 평가 기능은 테스트 데이터셋을 저장하기 위해 데이터 테이블 또는 Google Sheets를 사용합니다. Google Sheets를 데이터셋 소스로 사용하려면 Google Sheets 자격증명 을 설정하세요. 간단 평가 설정 워크플로에 메트릭 추가 평가 실행 및 결과 확인 1. 간단 평가 설정 # 설정 지침 에 따라 데이터셋을 생성하고 워크플로에 연결하여 출력 결과를 데이터셋에 기록합니다. 다음 단계에서는 간단 평가 문서와 동일한 지원 티켓 분류 워크플로를 사용합니다: 2. 워크플로에 메트릭 추가 # 메트릭은 워크플로 출력을 점수화하는 데 사용되는 차원입니다. 메트릭은 종종 실제 워크플로 출력과 참조 출력을 비교합니다. 메트릭을 계산하기 위해 AI를 사용하는 것이 일반적이지만, 코드만으로 계산하는 것도 가능한 경우도 있습니다. n8n에서 메트릭은 항상 숫자입니다. 출력을 생성한 이후 지점에서 워크플로의 메트릭을 계산하는 로직을 추가해야 합니다. 메트릭이 사용하는 참조 출력은 데이터셋의 열로 추가할 수 있습니다. 이렇게 하면 평가 트리거의 출력에 해당 참조 출력이 포함되어 워크플로에서 사용할 수 있게 됩니다. Set Metrics 작업을 사용하여 다음을 계산할 수 있습니다: 정확성(AI 기반) : 답변의 의미가 제공된 참조 답변과 일치하는지 여부. 1~5점 척도 사용, 5점이 최고. 유용성(AI 기반) : 응답이 주어진 질문에 답하는지 여부. 1~5점 척도 사용, 5점이 최고. 문자