InfoGrab Docs

메트릭 기반 평가(Metric-based Evaluations)

요약

메트릭 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 워크플로가 배포 준비가 되면 구축 단계보다 더 많은 예시를 테스트하고 싶을 것입니다. 예를 들어, 프로덕션 실행에서 엣지 케이스가 발생하기 시작하면 이를 테스트 데이터셋에 추가하여 해당 케이스가 제대로 처리되는지 확인하고 싶을 것입니다.

Pro 및 Enterprise 플랜에서 사용 가능

메트릭 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 등록된 커뮤니티 및 Starter 플랜 사용자도 단일 워크플로에 대해 사용할 수 있습니다.

메트릭 기반 평가란 무엇인가?#

워크플로가 배포 준비가 되면 구축 단계보다 더 많은 예시를 테스트하고 싶을 것입니다.

예를 들어, 프로덕션 실행에서 엣지 케이스가 발생하기 시작하면 이를 테스트 데이터셋에 추가하여 해당 케이스가 제대로 처리되는지 확인하고 싶을 것입니다.

프로덕션 데이터로 구축된 것과 같은 대규모 데이터셋에서는 결과를 시각적으로만 보고 성능을 파악하기 어렵습니다. 대신 성능을 측정해야 합니다. 메트릭 기반 평가는 각 테스트 실행에 하나 이상의 점수를 할당할 수 있으며, 이를 이전 실행과 비교할 수 있습니다. 개별 점수는 전체 데이터셋의 성능을 측정하기 위해 집계됩니다.

이 기능을 사용하면 메트릭을 계산하는 평가를 실행하고, 실행 간에 해당 메트릭이 어떻게 변하는지 추적하며, 변화의 원인을 자세히 분석할 수 있습니다.

메트릭은 결정론적 함수(예: 두 문자열 간의 거리)이거나 AI를 사용하여 계산할 수도 있습니다. 메트릭은 종종 출력이 참조 출력(ground truth라고도 함)에서 얼마나 멀리 떨어져 있는지 확인하는 과정을 포함합니다. 이를 위해 데이터셋에 참조 출력이 포함되어야 합니다. 단, 일부 평가에서는 이 참조 출력이 필요하지 않습니다(예: 감정 또는 독성 텍스트 검사).

작동 방식#

Google Sheets 자격증명

평가 기능은 테스트 데이터셋을 저장하기 위해 데이터 테이블 또는 Google Sheets를 사용합니다. Google Sheets를 데이터셋 소스로 사용하려면 Google Sheets 자격증명을 설정하세요.

  1. 간단 평가 설정
  2. 워크플로에 메트릭 추가
  3. 평가 실행 및 결과 확인

1. 간단 평가 설정#

설정 지침에 따라 데이터셋을 생성하고 워크플로에 연결하여 출력 결과를 데이터셋에 기록합니다.

다음 단계에서는 간단 평가 문서와 동일한 지원 티켓 분류 워크플로를 사용합니다:

간단 평가 워크플로

2. 워크플로에 메트릭 추가#

메트릭은 워크플로 출력을 점수화하는 데 사용되는 차원입니다. 메트릭은 종종 실제 워크플로 출력과 참조 출력을 비교합니다. 메트릭을 계산하기 위해 AI를 사용하는 것이 일반적이지만, 코드만으로 계산하는 것도 가능한 경우도 있습니다. n8n에서 메트릭은 항상 숫자입니다.

출력을 생성한 이후 지점에서 워크플로의 메트릭을 계산하는 로직을 추가해야 합니다. 메트릭이 사용하는 참조 출력은 데이터셋의 열로 추가할 수 있습니다. 이렇게 하면 평가 트리거의 출력에 해당 참조 출력이 포함되어 워크플로에서 사용할 수 있게 됩니다.

Set Metrics 작업을 사용하여 다음을 계산할 수 있습니다:

  • 정확성(AI 기반): 답변의 의미가 제공된 참조 답변과 일치하는지 여부. 1~5점 척도 사용, 5점이 최고.
  • 유용성(AI 기반): 응답이 주어진 질문에 답하는지 여부. 1~5점 척도 사용, 5점이 최고.
  • 문자열 유사도: 답변이 참조 답변에 얼마나 가까운지, 문자 단위(편집 거리)로 측정. 0~1 사이의 점수 반환.
  • 분류: 답변이 참조 답변과 정확히 일치하는지 여부. 일치하면 1, 그렇지 않으면 0 반환.
  • 사용된 도구: 실행이 도구를 사용했는지 여부. 0~1 사이의 점수 반환.

사용자 정의 메트릭을 추가할 수도 있습니다. 워크플로 내에서 메트릭을 계산한 다음 Evaluation 노드에 매핑하기만 하면 됩니다. Set Metrics 작업을 사용하고 Metric으로 Custom Metrics를 선택합니다. 그런 다음 반환하려는 메트릭의 이름과 값을 설정할 수 있습니다.

예를 들어:

  • RAG 문서 관련성: 벡터 데이터베이스를 사용할 때 검색된 문서가 질문과 관련이 있는지 여부.

메트릭 계산은 지연 시간과 비용을 증가시킬 수 있으므로, 평가를 실행할 때만 수행하고 프로덕션 실행 시에는 건너뛰는 것이 좋습니다. 'check if evaluating' 작업 이후에 메트릭 로직을 배치하여 이를 구현할 수 있습니다.

Check if evaluating 노드

3. 평가 실행 및 결과 확인#

워크플로의 Evaluations 탭으로 전환하고 Run evaluation 버튼을 클릭합니다. 평가가 시작됩니다. 평가가 완료되면 각 메트릭의 요약 점수가 표시됩니다.

테스트 실행 행을 클릭하면 각 테스트 케이스의 결과를 볼 수 있습니다. 개별 테스트 케이스를 클릭하면 해당 케이스를 생성한 실행이 (새 탭에서) 열립니다.

메트릭 기반 평가(Metric-based Evaluations)

원문 보기
요약

메트릭 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 워크플로가 배포 준비가 되면 구축 단계보다 더 많은 예시를 테스트하고 싶을 것입니다. 예를 들어, 프로덕션 실행에서 엣지 케이스가 발생하기 시작하면 이를 테스트 데이터셋에 추가하여 해당 케이스가 제대로 처리되는지 확인하고 싶을 것입니다.

Pro 및 Enterprise 플랜에서 사용 가능

메트릭 기반 평가는 Pro 및 Enterprise 플랜에서 사용할 수 있습니다. 등록된 커뮤니티 및 Starter 플랜 사용자도 단일 워크플로에 대해 사용할 수 있습니다.

메트릭 기반 평가란 무엇인가?#

워크플로가 배포 준비가 되면 구축 단계보다 더 많은 예시를 테스트하고 싶을 것입니다.

예를 들어, 프로덕션 실행에서 엣지 케이스가 발생하기 시작하면 이를 테스트 데이터셋에 추가하여 해당 케이스가 제대로 처리되는지 확인하고 싶을 것입니다.

프로덕션 데이터로 구축된 것과 같은 대규모 데이터셋에서는 결과를 시각적으로만 보고 성능을 파악하기 어렵습니다. 대신 성능을 측정해야 합니다. 메트릭 기반 평가는 각 테스트 실행에 하나 이상의 점수를 할당할 수 있으며, 이를 이전 실행과 비교할 수 있습니다. 개별 점수는 전체 데이터셋의 성능을 측정하기 위해 집계됩니다.

이 기능을 사용하면 메트릭을 계산하는 평가를 실행하고, 실행 간에 해당 메트릭이 어떻게 변하는지 추적하며, 변화의 원인을 자세히 분석할 수 있습니다.

메트릭은 결정론적 함수(예: 두 문자열 간의 거리)이거나 AI를 사용하여 계산할 수도 있습니다. 메트릭은 종종 출력이 참조 출력(ground truth라고도 함)에서 얼마나 멀리 떨어져 있는지 확인하는 과정을 포함합니다. 이를 위해 데이터셋에 참조 출력이 포함되어야 합니다. 단, 일부 평가에서는 이 참조 출력이 필요하지 않습니다(예: 감정 또는 독성 텍스트 검사).

작동 방식#

Google Sheets 자격증명

평가 기능은 테스트 데이터셋을 저장하기 위해 데이터 테이블 또는 Google Sheets를 사용합니다. Google Sheets를 데이터셋 소스로 사용하려면 Google Sheets 자격증명을 설정하세요.

  1. 간단 평가 설정
  2. 워크플로에 메트릭 추가
  3. 평가 실행 및 결과 확인

1. 간단 평가 설정#

설정 지침에 따라 데이터셋을 생성하고 워크플로에 연결하여 출력 결과를 데이터셋에 기록합니다.

다음 단계에서는 간단 평가 문서와 동일한 지원 티켓 분류 워크플로를 사용합니다:

간단 평가 워크플로

2. 워크플로에 메트릭 추가#

메트릭은 워크플로 출력을 점수화하는 데 사용되는 차원입니다. 메트릭은 종종 실제 워크플로 출력과 참조 출력을 비교합니다. 메트릭을 계산하기 위해 AI를 사용하는 것이 일반적이지만, 코드만으로 계산하는 것도 가능한 경우도 있습니다. n8n에서 메트릭은 항상 숫자입니다.

출력을 생성한 이후 지점에서 워크플로의 메트릭을 계산하는 로직을 추가해야 합니다. 메트릭이 사용하는 참조 출력은 데이터셋의 열로 추가할 수 있습니다. 이렇게 하면 평가 트리거의 출력에 해당 참조 출력이 포함되어 워크플로에서 사용할 수 있게 됩니다.

Set Metrics 작업을 사용하여 다음을 계산할 수 있습니다:

  • 정확성(AI 기반): 답변의 의미가 제공된 참조 답변과 일치하는지 여부. 1~5점 척도 사용, 5점이 최고.
  • 유용성(AI 기반): 응답이 주어진 질문에 답하는지 여부. 1~5점 척도 사용, 5점이 최고.
  • 문자열 유사도: 답변이 참조 답변에 얼마나 가까운지, 문자 단위(편집 거리)로 측정. 0~1 사이의 점수 반환.
  • 분류: 답변이 참조 답변과 정확히 일치하는지 여부. 일치하면 1, 그렇지 않으면 0 반환.
  • 사용된 도구: 실행이 도구를 사용했는지 여부. 0~1 사이의 점수 반환.

사용자 정의 메트릭을 추가할 수도 있습니다. 워크플로 내에서 메트릭을 계산한 다음 Evaluation 노드에 매핑하기만 하면 됩니다. Set Metrics 작업을 사용하고 Metric으로 Custom Metrics를 선택합니다. 그런 다음 반환하려는 메트릭의 이름과 값을 설정할 수 있습니다.

예를 들어:

  • RAG 문서 관련성: 벡터 데이터베이스를 사용할 때 검색된 문서가 질문과 관련이 있는지 여부.

메트릭 계산은 지연 시간과 비용을 증가시킬 수 있으므로, 평가를 실행할 때만 수행하고 프로덕션 실행 시에는 건너뛰는 것이 좋습니다. 'check if evaluating' 작업 이후에 메트릭 로직을 배치하여 이를 구현할 수 있습니다.

Check if evaluating 노드

3. 평가 실행 및 결과 확인#

워크플로의 Evaluations 탭으로 전환하고 Run evaluation 버튼을 클릭합니다. 평가가 시작됩니다. 평가가 완료되면 각 메트릭의 요약 점수가 표시됩니다.

테스트 실행 행을 클릭하면 각 테스트 케이스의 결과를 볼 수 있습니다. 개별 테스트 케이스를 클릭하면 해당 케이스를 생성한 실행이 (새 탭에서) 열립니다.