Guardrails 노드 문서
Guardrails 노드를 사용하여 텍스트에 안전, 보안, 콘텐츠 정책을 적용합니다. 이 노드는 LLM 기반 가드레일이 있는 텍스트 위반 확인 작업을 사용할 때 모델 입력에 Chat Model 노드가 연결되어 있어야 합니다.
Guardrails 노드를 사용하여 텍스트에 안전, 보안, 콘텐츠 정책을 적용합니다. AI 모델로 보내기 전에 사용자 입력을 검증하거나, 워크플로에서 사용하기 전에 AI 모델의 _출력_을 확인하는 데 사용할 수 있습니다.
이 노드는 LLM 기반 가드레일이 있는 텍스트 위반 확인 작업을 사용할 때 모델 입력에 Chat Model 노드가 연결되어 있어야 합니다. 많은 가드레일 검사(예: Jailbreak, NSFW, 주제 정렬)는 LLM 기반이며 이 연결을 사용하여 입력 텍스트를 평가합니다.
노드 파라미터#
다음 파라미터를 사용하여 Guardrails 노드를 구성합니다.
작업#
노드의 동작을 정의하는 작업 모드입니다.
- 텍스트 위반 확인: 전체 가드레일 세트를 제공합니다. 위반이 있으면 항목이 실패 분기로 전송됩니다.
- 텍스트 정제: URL, 정규 표현식, 비밀 키 또는 전화번호, 신용카드 번호와 같은 개인 식별 정보(PII)를 감지할 수 있는 가드레일의 하위 집합을 제공합니다. 노드는 감지된 위반을 플레이스홀더로 교체합니다.
확인할 텍스트#
가드레일이 평가하는 텍스트입니다. 일반적으로 사용자 쿼리의 텍스트나 AI 모델의 응답과 같이 이전 노드에서 표현식을 사용하여 이 텍스트를 매핑합니다.
가드레일#
확인할 텍스트에 적용할 가드레일을 하나 이상 선택합니다. 목록에서 가드레일을 추가하면 그 아래에 특정 구성 옵션이 나타납니다.
- 키워드: 지정된 키워드가 입력 텍스트에 나타나는지 확인합니다.
- 키워드: 차단할 단어의 쉼표로 구분된 목록입니다.
- Jailbreak: AI 안전 조치를 우회하거나 모델을 악용하려는 시도를 감지합니다.
- 프롬프트 커스터마이징: (불리언) 켜면 jailbreak 감지 모델의 기본 프롬프트가 있는 텍스트 입력이 나타납니다. 이 프롬프트를 변경하여 가드레일을 미세 조정할 수 있습니다.
- 임계값: 0.0에서 1.0 사이의 값입니다. AI 모델이 입력을 jailbreak 시도로 표시하는 데 필요한 신뢰도 수준을 나타냅니다. 임계값이 높을수록 더 엄격합니다.
- NSFW: 성인 콘텐츠(NSFW) 생성 시도를 감지합니다.
- 프롬프트 커스터마이징: (불리언) 켜면 NSFW 감지 모델의 기본 프롬프트가 있는 텍스트 입력이 나타납니다. 이 프롬프트를 변경하여 가드레일을 미세 조정할 수 있습니다.
- 임계값: 콘텐츠를 NSFW로 표시하는 데 필요한 신뢰도 수준을 나타내는 0.0에서 1.0 사이의 값입니다.
- PII: 텍스트에서 개인 식별 정보(PII)를 감지합니다.
- 유형: 스캔할 PII 엔티티를 선택합니다:
- 모두: 사용 가능한 모든 엔티티 유형을 스캔합니다.
- 선택됨: 목록에서 특정 엔티티를 선택할 수 있습니다.
- 엔티티: (유형이 선택됨인 경우 나타남) 감지할 PII 유형의 다중 선택 목록입니다(예:
CREDIT_CARD,EMAIL_ADDRESS,PHONE_NUMBER,US_SSN).
- 유형: 스캔할 PII 엔티티를 선택합니다:
- 비밀 키: 텍스트에서 비밀 키나 API 자격 증명의 존재를 감지합니다.
- 허용도: 비밀 키를 표시할 때 얼마나 엄격하거나 허용적일지를 설정합니다:
- 엄격
- 허용
- 균형
- 허용도: 비밀 키를 표시할 때 얼마나 엄격하거나 허용적일지를 설정합니다:
- 주제 정렬: 대화가 사전에 정의된 범위 또는 주제 내에 머무르도록 합니다("비즈니스 범위"라고도 함).
- 프롬프트: 허용된 주제를 정의하는 사전 설정 프롬프트입니다. 가드레일은 확인할 텍스트가 이 프롬프트와 정렬되는지 확인합니다.
- 임계값: 입력을 주제에서 벗어난 것으로 표시하는 데 필요한 신뢰도 수준을 나타내는 0.0에서 1.0 사이의 값입니다.
- URL: 노드가 입력 텍스트에서 찾은 URL을 관리합니다. 다음을 제외한 모든 URL 차단에 지정하지 않으면 모든 URL을 위반으로 감지합니다.
- 다음을 제외한 모든 URL 차단: (선택 사항) 허용하는 URL의 쉼표로 구분된 목록입니다.
- 허용된 스킴: 허용할 URL 스킴을 선택합니다(예:
https,http,ftp,mailto). - 사용자 정보 차단: (불리언) 켜면 노드가 자격 증명이 포함된 URL(예:
user:pass@example.com)을 차단하여 자격 증명 주입을 방지합니다. - 하위 도메인 허용: (불리언) 켜면 노드가 다음을 제외한 모든 URL 차단 목록의 모든 URL의 하위 도메인을 자동으로 허용합니다(예:
example.com이 목록에 있으면sub.example.com이 허용됨).
- 커스텀: 자체 커스텀 LLM 기반 가드레일을 정의합니다.
- 이름: 커스텀 가드레일에 대한 설명적인 이름입니다(예: "무례한 언어 확인").
- 프롬프트: AI 모델에 확인할 내용을 지시하는 프롬프트입니다.
- 임계값: 입력을 위반으로 표시하는 데 필요한 신뢰도 수준을 나타내는 0.0에서 1.0 사이의 값입니다.
- 커스텀 정규식: 자체 커스텀 정규 표현식 패턴을 정의합니다.
- 이름: 커스텀 패턴의 이름입니다. 노드는 텍스트 정제 모드에서 이 이름을 플레이스홀더로 사용합니다.
- 정규식: 정규 표현식 패턴입니다.
시스템 메시지 커스터마이징#
켜면 가드레일이 임계값 및 스키마에 따른 JSON 출력을 적용하는 데 사용하는 메시지가 있는 텍스트 입력이 나타납니다. 전역 가드레일 동작을 수정하려면 변경합니다.
