LLM 플랫폼 구성

지원되는 LLM 서빙 플랫폼 및 GitLab Duo Self-Hosted에서 클라우드·자체 호스팅 모델 배포 방법을 설명합니다.

LLM 플랫폼 구성 # - Tier: Premium, Ultimate - Offering: GitLab Self-Managed, GitLab Dedicated for Government 히스토리 GitLab 17.1에서 ai_custom_model 이라는 플래그 와 함께 도입됨 . 기본적으로 비활성화됨. GitLab 17.6에서 GitLab Self-Managed에 활성화됨 . GitLab 17.6 이후부터 GitLab Duo 애드온이 필요하도록 변경됨. GitLab 17.8에서 기능 플래그 ai_custom_model 이 제거됨. GitLab 17.9에서 일반 공개됨. GitLab 18.0에서 Premium 플랜 포함으로 변경됨. GitLab 18.5에서 GitLab Dedicated for Government에 활성화됨 . AI Gateway는 LiteLLM 을 통해 여러 LLM 공급자를 지원합니다. 각 플랫폼은 다양한 요구 사항에 맞는 고유한 기능과 장점을 제공합니다. 다음 문서에서는 검증 및 테스트를 완료한 공급자를 요약합니다. 원하는 플랫폼이 이 문서에 없는 경우, 플랫폼 요청 이슈(이슈 526144) 에 피드백을 남겨 주세요. 여러 모델 및 플랫폼 사용 # 동일한 GitLab 인스턴스에서 여러 모델과 플랫폼을 함께 사용할 수 있습니다. 예를 들어, 하나의 기능에는 Azure OpenAI를 사용하고, 다른 기능에는 AWS Bedrock 또는 vLLM로 서빙되는 셀프 호스팅 모델을 사용하도록 구성할 수 있습니다. 이 설정을 통해 각 사용 사례에 맞는 최적의 모델과 플랫폼을 유연하게 선택할 수 있습니다. 모델은 반드시 지원되는 모델이어야 하며 호환 가능한 플랫폼을 통해 서빙되어야 합니다. 셀프 호스팅 모델 배포 # vLLM # vLLM 은 메모리 효율적으로 LLM을 서빙하기 위해 최적화된 고성능 추론 서버입니다. 모델 병렬 처리를 지원하며 기존 워크플로와 쉽게 통합됩니다. vLLM 설치 방법은 vLLM 설치 가이드 를 참조하세요. v0.18.1 버전 이상을 설치하는 것을 권장합니다. vLLM으로 GPT OSS 120B를 서빙하기 위한 단계별 설정 가이드는 vLLM으로 GPT OSS 120B 서빙하기 를 참조하세요. 엔드포인트 URL 구성 # GitLab에서 vLLM과 같은 OpenAI API 호환 플랫폼의 엔드포인트 URL을 구성할 때: URL 끝에 /v1 을 붙여야 합니다. 기본 vLLM 구성을 사용하는 경우, 엔드포인트 URL은 https://<hostname>:8000/v1 이 됩니다. 서버가 프록시 또는 로드 밸런서 뒤에 구성된 경우 포트를 지정할 필요가 없을 수 있으며, 이 경우 URL은 https://<hostname>/v1 이 됩니다. 모델 이름 확인 # 모델 배포 후, GitLab의 모델 식별자 필드에 사용할 모델 이름을 얻으려면 vLLM 서버의 /v1/models 엔드포인트를 쿼리하세요: curl \ --header "Authorization: Bearer API_KEY" \ --header "Co