평가(Evaluations) 개요

n8n 평가 기능을 사용하여 신뢰할 수 있는 AI 워크플로를 구축하세요. 알려진 테스트 케이스의 출력 결과를 비교하여 LLM 기반 워크플로의 신뢰성을 확보합니다.

평가란 무엇인가? # 평가(Evaluation)는 AI 워크플로의 신뢰성을 확인하는 데 매우 중요한 기법입니다. 이는 불안정한 개념 증명(proof of concept)과 견고한 프로덕션 워크플로의 차이를 만들어 낼 수 있습니다. 구축 단계와 프로덕션 배포 이후 모두 중요합니다. 평가의 기본은 테스트 데이터셋을 워크플로에 실행하는 것입니다. 이 데이터셋에는 여러 테스트 케이스가 포함되어 있습니다. 각 테스트 케이스에는 워크플로의 샘플 입력값이 포함되어 있으며, 대부분의 경우 예상 출력값도 포함됩니다. 평가를 통해 다음이 가능합니다: 다양한 입력값에 걸쳐 워크플로를 테스트 하여 엣지 케이스에서의 성능을 파악 의도치 않게 다른 부분을 악화시키지 않고 자신 있게 변경 적용 다양한 모델 또는 프롬프트 간의 성능 비교 다음 동영상에서는 평가가 무엇인지, 왜 유용한지, 어떻게 작동하는지 설명합니다: 왜 평가가 필요한가? # AI 모델은 코드와 근본적으로 다릅니다. 코드는 결정론적이며 추론이 가