모델 및 하드웨어 요구 사항

요약

Mistral, Meta, Anthropic, OpenAI의 업계 선도 모델을 선호하는 서빙 플랫폼을 통해 통합할 수 있습니다. 특정 성능 요구 사항 및 사용 사례에 맞는 지원 모델. GitLab 18.3 이상에서 공식 지원 옵션 이외의 모델을 실험하기 위한 자체 호환 모델.

히스토리

GitLab 17.1에서 ai_custom_model이라는 플래그와 함께 도입됨. 기본적으로 비활성화됨.
GitLab 17.6에서 GitLab Self-Managed에서 활성화됨.
GitLab 17.6 이상에서 GitLab Duo 애드온이 필요하도록 변경됨.
GitLab 17.8에서 기능 플래그 ai_custom_model 제거됨.
GitLab 17.9에서 일반 가용성.
GitLab 18.0에서 Premium을 포함하도록 변경됨.
GitLab 18.5에서 GitLab Dedicated for Government에서 활성화됨.

Mistral, Meta, Anthropic, OpenAI의 업계 선도 모델을 선호하는 서빙 플랫폼을 통해 통합할 수 있습니다.

다음을 사용할 수 있습니다:

특정 성능 요구 사항 및 사용 사례에 맞는 지원 모델.
GitLab 18.3 이상에서 공식 지원 옵션 이외의 모델을 실험하기 위한 자체 호환 모델.
GitLab 관리 모델은 자체 인프라를 호스팅하지 않고도 AI 모델에 연결합니다. 이러한 모델은 GitLab에서 완전히 관리됩니다.

지원 모델#

GitLab 지원 모델은 특정 모델과 기능 조합에 따라 GitLab Duo 기능에 대해 다양한 수준의 기능을 제공합니다.

[check-circle-filled] 완전한 기능: 모델이 품질 손실 없이 해당 기능을 처리할 수 있습니다.
[check-circle-dashed] 부분적인 기능: 모델이 기능을 지원하지만 타협이나 제한이 있을 수 있습니다.
[dash-circle] 제한적인 기능: 모델이 해당 기능에 적합하지 않으며, 상당한 품질 저하 또는 성능 문제가 발생할 가능성이 높습니다. 제한적인 기능을 가진 모델은 해당 특정 기능에 대해 GitLab 지원을 받지 못합니다.

모델 패밀리	모델	코드 완성	코드 생성	GitLab Duo Non-Agentic Chat	GitLab Duo Agent Platform
Claude 4	Claude 4 Sonnet	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Claude 4	Claude 4.5 Sonnet	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Claude 4	Claude 4.5 Haiku	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Claude 4	Claude 4.5 Opus	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-4 Turbo	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
GPT	GPT-4o	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
GPT	GPT-4o-mini	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
GPT	GPT-5	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-5 Mini	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능
GPT	GPT-5 Codex	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-5.1	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-5.2	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-oss-120B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
Mistral Devstral	Devstral 2 123B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Mistral Codestral	Codestral 22B v0.1	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
Mistral	Mistral Small 24B Instruct 2506	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
GLM	GLM-5.1-FP8	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Kimi	Kimi-K2.5	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-dashed] 부분적인 기능	[check-circle-dashed] 부분적인 기능
Kimi	Kimi-K2.6	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-dashed] 부분적인 기능	[check-circle-dashed] 부분적인 기능
MiniMax	MiniMax-M2.7	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-dashed] 부분적인 기능	[check-circle-dashed] 부분적인 기능
Llama	Llama 3 8B	[check-circle-dashed] 부분적인 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능
Llama	Llama 3.1 8B	[check-circle-dashed] 부분적인 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
Llama	Llama 3 70B	[check-circle-dashed] 부분적인 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능
Llama	Llama 3.1 70B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
Llama	Llama 3.3 70B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능

호환 모델#

히스토리

GitLab 18.3에서 베타로 도입됨.

GitLab Duo Agent Platform 및 GitLab Duo 기능과 함께 자체 호환 모델 및 플랫폼을 사용할 수 있습니다. 지원되는 모델 패밀리에 포함되지 않는 호환 모델의 경우 일반 모델 패밀리를 사용합니다. 여기에는 직접 호스팅하는 모델(예: vLLM 또는 LiteLLM을 통해 제공되는 모델)도 포함되며, OpenAI API 호환 /v1 엔드포인트를 통해 노출되어야 합니다.

호환 모델은 AI 기능 약관의 고객 통합 모델 정의에서 제외됩니다. 호환 모델 및 플랫폼은 OpenAI API 명세를 준수해야 합니다. 이전에 실험적 또는 베타로 표시된 모델 및 플랫폼은 이제 호환 모델로 간주됩니다.

이 기능은 베타 상태이며 피드백을 수집하고 통합을 개선함에 따라 변경될 수 있습니다:

GitLab은 선택한 모델 또는 플랫폼에 특정한 문제에 대한 기술 지원을 제공하지 않습니다.
모든 Agent Platform 또는 GitLab Duo 기능이 모든 호환 모델에서 최적으로 작동한다는 보장은 없습니다.
응답 품질, 속도 및 전반적인 성능은 선택한 모델에 따라 크게 다를 수 있습니다.

GitLab Duo#

모델 패밀리	모델
일반	OpenAI API 명세와 호환되는 모든 모델
CodeGemma	CodeGemma 2b
CodeGemma	CodeGemma 7b-it
CodeGemma	CodeGemma 7b-code
Code Llama	Code-Llama 13b
DeepSeek Coder	DeepSeek Coder 33b Instruct
DeepSeek Coder	DeepSeek Coder 33b Base

GitLab Duo Agent Platform#

모델 패밀리	모델
일반	OpenAI API 명세와 호환되는 모든 모델
Gemini	Gemini 3.1 Pro
Gemini	Gemini 3.0 Flash
Gemma 4	Gemma-4-31B-IT
Qwen 3.6	Qwen3.6-35B-A3B

GitLab 관리 모델#

히스토리

GitLab 18.3에서 ai_self_hosted_vendored_features라는 기능 플래그와 함께 베타 기능으로 도입됨. 기본적으로 비활성화됨.
GitLab 18.7에서 기본적으로 활성화됨.
GitLab 18.9에서 기능 플래그 ai_self_hosted_vendored_features 제거됨.

GitLab 관리 모델은 GitLab이 큐레이션하고 제공하는 AI 모델에 액세스할 수 있도록 GitLab 호스팅 AI Gateway 인프라와 통합됩니다. 자체 호스팅 모델 대신 특정 GitLab Duo 기능에 GitLab 관리 모델을 사용하도록 선택할 수 있습니다.

기능에 GitLab 관리 모델을 사용하는 방법을 선택하려면 기능에 GitLab 관리 모델 선택을 참조하세요.

특정 기능에 대해 활성화된 경우:

GitLab 관리 모델로 구성된 해당 기능에 대한 모든 호출은 자체 호스팅 AI Gateway가 아닌 GitLab 호스팅 AI Gateway를 사용합니다.
AI 로그가 활성화된 경우에도 GitLab 호스팅 AI Gateway에서 자세한 로그가 생성되지 않습니다. 이는 민감한 정보의 의도치 않은 유출을 방지합니다.

하드웨어 요구 사항#

다음 하드웨어 사양은 온프레미스에서 GitLab Duo Self-Hosted를 실행하기 위한 최소 요구 사항입니다. 요구 사항은 모델 크기 및 의도된 사용에 따라 크게 다릅니다:

기본 시스템 요구 사항#

CPU:

최소: 8코어 (16스레드)

권장: 프로덕션 환경에는 16코어 이상
RAM:

최소: 32 GB

권장: 대부분의 모델에는 64 GB
스토리지:

모델 가중치 및 데이터를 위한 충분한 공간이 있는 SSD.

모델 크기별 GPU 요구 사항#

모델 크기	최소 GPU 구성	최소 VRAM 요구
7B 모델(예: Mistral 7B)	1x NVIDIA A100 (40 GB)	35 GB
22B 모델(예: Codestral 22B)	2x NVIDIA A100 (80 GB)	110 GB
Mixtral 8x7B	2x NVIDIA A100 (80 GB)	220 GB
Mixtral 8x22B	8x NVIDIA A100 (80 GB)	526 GB

메모리 요구 사항을 확인하려면 Hugging Face의 메모리 유틸리티를 사용합니다.

모델 크기 및 GPU별 응답 시간#

소형 머신#

a2-highgpu-2g (2x NVIDIA A100 40 GB - 150 GB vRAM) 또는 동급 머신 사용 시:

모델명	요청 수	요청당 평균 시간 (초)	응답 평균 토큰 수	요청당 평균 초당 토큰 수	총 요청 시간	총 TPS
Mistral-7B-Instruct-v0.3	1	7.09	717.0	101.19	7.09	101.17
Mistral-7B-Instruct-v0.3	10	8.41	764.2	90.35	13.70	557.80
Mistral-7B-Instruct-v0.3	100	13.97	693.23	49.17	20.81	3331.59

중형 머신#

GCP의 a2-ultragpu-4g (4x NVIDIA A100 40 GB - 340 GB vRAM) 또는 동급 머신 사용 시:

모델명	요청 수	요청당 평균 시간 (초)	응답 평균 토큰 수	요청당 평균 초당 토큰 수	총 요청 시간	총 TPS
Mistral-7B-Instruct-v0.3	1	3.80	499.0	131.25	3.80	131.23
Mistral-7B-Instruct-v0.3	10	6.00	740.6	122.85	8.19	904.22
Mistral-7B-Instruct-v0.3	100	11.71	695.71	59.06	15.54	4477.34
Mixtral-8x7B-Instruct-v0.1	1	6.50	400.0	61.55	6.50	61.53
Mixtral-8x7B-Instruct-v0.1	10	16.58	768.9	40.33	32.56	236.13
Mixtral-8x7B-Instruct-v0.1	100	25.90	767.38	26.87	55.57	1380.68

대형 머신#

GCP의 a2-ultragpu-8g (8 x NVIDIA A100 80 GB - 1360 GB vRAM) 또는 동급 머신 사용 시:

모델명	요청 수	요청당 평균 시간 (초)	응답 평균 토큰 수	요청당 평균 초당 토큰 수	총 요청 시간 (초)	총 TPS
Mistral-7B-Instruct-v0.3	1	3.23	479.0	148.41	3.22	148.36
Mistral-7B-Instruct-v0.3	10	4.95	678.3	135.98	6.85	989.11
Mistral-7B-Instruct-v0.3	100	10.14	713.27	69.63	13.96	5108.75
Mixtral-8x7B-Instruct-v0.1	1	6.08	709.0	116.69	6.07	116.64
Mixtral-8x7B-Instruct-v0.1	10	9.95	645.0	63.68	13.40	481.06
Mixtral-8x7B-Instruct-v0.1	100	13.83	585.01	41.80	20.38	2869.12
Mixtral-8x22B-Instruct-v0.1	1	14.39	828.0	57.56	14.38	57.55
Mixtral-8x22B-Instruct-v0.1	10	20.57	629.7	30.24	28.02	224.71
Mixtral-8x22B-Instruct-v0.1	100	27.58	592.49	21.34	36.80	1609.85

AI Gateway 하드웨어 요구 사항#

AI Gateway 하드웨어 권장 사항은 AI Gateway 스케일링 권장 사항을 참조하세요.

모델 및 하드웨어 요구 사항

GitLab v19.2

Tier: Premium, Ultimate
Offering: GitLab Self-Managed, GitLab Dedicated for Government

원문 보기

번역일: 2026-06-19

요약

히스토리

GitLab 17.1에서 ai_custom_model이라는 플래그와 함께 도입됨. 기본적으로 비활성화됨.
GitLab 17.6에서 GitLab Self-Managed에서 활성화됨.
GitLab 17.6 이상에서 GitLab Duo 애드온이 필요하도록 변경됨.
GitLab 17.8에서 기능 플래그 ai_custom_model 제거됨.
GitLab 17.9에서 일반 가용성.
GitLab 18.0에서 Premium을 포함하도록 변경됨.
GitLab 18.5에서 GitLab Dedicated for Government에서 활성화됨.

Mistral, Meta, Anthropic, OpenAI의 업계 선도 모델을 선호하는 서빙 플랫폼을 통해 통합할 수 있습니다.

다음을 사용할 수 있습니다:

특정 성능 요구 사항 및 사용 사례에 맞는 지원 모델.
GitLab 18.3 이상에서 공식 지원 옵션 이외의 모델을 실험하기 위한 자체 호환 모델.
GitLab 관리 모델은 자체 인프라를 호스팅하지 않고도 AI 모델에 연결합니다. 이러한 모델은 GitLab에서 완전히 관리됩니다.

지원 모델#

GitLab 지원 모델은 특정 모델과 기능 조합에 따라 GitLab Duo 기능에 대해 다양한 수준의 기능을 제공합니다.

[check-circle-filled] 완전한 기능: 모델이 품질 손실 없이 해당 기능을 처리할 수 있습니다.
[check-circle-dashed] 부분적인 기능: 모델이 기능을 지원하지만 타협이나 제한이 있을 수 있습니다.
[dash-circle] 제한적인 기능: 모델이 해당 기능에 적합하지 않으며, 상당한 품질 저하 또는 성능 문제가 발생할 가능성이 높습니다. 제한적인 기능을 가진 모델은 해당 특정 기능에 대해 GitLab 지원을 받지 못합니다.

모델 패밀리	모델	코드 완성	코드 생성	GitLab Duo Non-Agentic Chat	GitLab Duo Agent Platform
Claude 4	Claude 4 Sonnet	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Claude 4	Claude 4.5 Sonnet	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Claude 4	Claude 4.5 Haiku	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Claude 4	Claude 4.5 Opus	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-4 Turbo	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
GPT	GPT-4o	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
GPT	GPT-4o-mini	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
GPT	GPT-5	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-5 Mini	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능
GPT	GPT-5 Codex	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-5.1	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-5.2	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
GPT	GPT-oss-120B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
Mistral Devstral	Devstral 2 123B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Mistral Codestral	Codestral 22B v0.1	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
Mistral	Mistral Small 24B Instruct 2506	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
GLM	GLM-5.1-FP8	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능
Kimi	Kimi-K2.5	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-dashed] 부분적인 기능	[check-circle-dashed] 부분적인 기능
Kimi	Kimi-K2.6	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-dashed] 부분적인 기능	[check-circle-dashed] 부분적인 기능
MiniMax	MiniMax-M2.7	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능	[check-circle-dashed] 부분적인 기능	[check-circle-dashed] 부분적인 기능
Llama	Llama 3 8B	[check-circle-dashed] 부분적인 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능
Llama	Llama 3.1 8B	[check-circle-dashed] 부분적인 기능	[check-circle-filled] 완전한 기능	[check-circle-dashed] 부분적인 기능	[dash-circle] 제한적인 기능
Llama	Llama 3 70B	[check-circle-dashed] 부분적인 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능	[dash-circle] 제한적인 기능
Llama	Llama 3.1 70B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능
Llama	Llama 3.3 70B	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[check-circle-filled] 완전한 기능	[dash-circle] 제한적인 기능

호환 모델#

히스토리

GitLab 18.3에서 베타로 도입됨.

이 기능은 베타 상태이며 피드백을 수집하고 통합을 개선함에 따라 변경될 수 있습니다:

GitLab은 선택한 모델 또는 플랫폼에 특정한 문제에 대한 기술 지원을 제공하지 않습니다.
모든 Agent Platform 또는 GitLab Duo 기능이 모든 호환 모델에서 최적으로 작동한다는 보장은 없습니다.
응답 품질, 속도 및 전반적인 성능은 선택한 모델에 따라 크게 다를 수 있습니다.

GitLab Duo#

모델 패밀리	모델
일반	OpenAI API 명세와 호환되는 모든 모델
CodeGemma	CodeGemma 2b
CodeGemma	CodeGemma 7b-it
CodeGemma	CodeGemma 7b-code
Code Llama	Code-Llama 13b
DeepSeek Coder	DeepSeek Coder 33b Instruct
DeepSeek Coder	DeepSeek Coder 33b Base

GitLab Duo Agent Platform#

모델 패밀리	모델
일반	OpenAI API 명세와 호환되는 모든 모델
Gemini	Gemini 3.1 Pro
Gemini	Gemini 3.0 Flash
Gemma 4	Gemma-4-31B-IT
Qwen 3.6	Qwen3.6-35B-A3B

GitLab 관리 모델#

히스토리

GitLab 18.3에서 ai_self_hosted_vendored_features라는 기능 플래그와 함께 베타 기능으로 도입됨. 기본적으로 비활성화됨.
GitLab 18.7에서 기본적으로 활성화됨.
GitLab 18.9에서 기능 플래그 ai_self_hosted_vendored_features 제거됨.

기능에 GitLab 관리 모델을 사용하는 방법을 선택하려면 기능에 GitLab 관리 모델 선택을 참조하세요.

특정 기능에 대해 활성화된 경우:

GitLab 관리 모델로 구성된 해당 기능에 대한 모든 호출은 자체 호스팅 AI Gateway가 아닌 GitLab 호스팅 AI Gateway를 사용합니다.
AI 로그가 활성화된 경우에도 GitLab 호스팅 AI Gateway에서 자세한 로그가 생성되지 않습니다. 이는 민감한 정보의 의도치 않은 유출을 방지합니다.

하드웨어 요구 사항#

기본 시스템 요구 사항#

CPU:

최소: 8코어 (16스레드)

권장: 프로덕션 환경에는 16코어 이상
RAM:

최소: 32 GB

권장: 대부분의 모델에는 64 GB
스토리지:

모델 가중치 및 데이터를 위한 충분한 공간이 있는 SSD.

모델 크기별 GPU 요구 사항#

모델 크기	최소 GPU 구성	최소 VRAM 요구
7B 모델(예: Mistral 7B)	1x NVIDIA A100 (40 GB)	35 GB
22B 모델(예: Codestral 22B)	2x NVIDIA A100 (80 GB)	110 GB
Mixtral 8x7B	2x NVIDIA A100 (80 GB)	220 GB
Mixtral 8x22B	8x NVIDIA A100 (80 GB)	526 GB

메모리 요구 사항을 확인하려면 Hugging Face의 메모리 유틸리티를 사용합니다.

모델 크기 및 GPU별 응답 시간#

소형 머신#

a2-highgpu-2g (2x NVIDIA A100 40 GB - 150 GB vRAM) 또는 동급 머신 사용 시:

모델명	요청 수	요청당 평균 시간 (초)	응답 평균 토큰 수	요청당 평균 초당 토큰 수	총 요청 시간	총 TPS
Mistral-7B-Instruct-v0.3	1	7.09	717.0	101.19	7.09	101.17
Mistral-7B-Instruct-v0.3	10	8.41	764.2	90.35	13.70	557.80
Mistral-7B-Instruct-v0.3	100	13.97	693.23	49.17	20.81	3331.59

중형 머신#

GCP의 a2-ultragpu-4g (4x NVIDIA A100 40 GB - 340 GB vRAM) 또는 동급 머신 사용 시:

모델명	요청 수	요청당 평균 시간 (초)	응답 평균 토큰 수	요청당 평균 초당 토큰 수	총 요청 시간	총 TPS
Mistral-7B-Instruct-v0.3	1	3.80	499.0	131.25	3.80	131.23
Mistral-7B-Instruct-v0.3	10	6.00	740.6	122.85	8.19	904.22
Mistral-7B-Instruct-v0.3	100	11.71	695.71	59.06	15.54	4477.34
Mixtral-8x7B-Instruct-v0.1	1	6.50	400.0	61.55	6.50	61.53
Mixtral-8x7B-Instruct-v0.1	10	16.58	768.9	40.33	32.56	236.13
Mixtral-8x7B-Instruct-v0.1	100	25.90	767.38	26.87	55.57	1380.68

대형 머신#

GCP의 a2-ultragpu-8g (8 x NVIDIA A100 80 GB - 1360 GB vRAM) 또는 동급 머신 사용 시:

모델명	요청 수	요청당 평균 시간 (초)	응답 평균 토큰 수	요청당 평균 초당 토큰 수	총 요청 시간 (초)	총 TPS
Mistral-7B-Instruct-v0.3	1	3.23	479.0	148.41	3.22	148.36
Mistral-7B-Instruct-v0.3	10	4.95	678.3	135.98	6.85	989.11
Mistral-7B-Instruct-v0.3	100	10.14	713.27	69.63	13.96	5108.75
Mixtral-8x7B-Instruct-v0.1	1	6.08	709.0	116.69	6.07	116.64
Mixtral-8x7B-Instruct-v0.1	10	9.95	645.0	63.68	13.40	481.06
Mixtral-8x7B-Instruct-v0.1	100	13.83	585.01	41.80	20.38	2869.12
Mixtral-8x22B-Instruct-v0.1	1	14.39	828.0	57.56	14.38	57.55
Mixtral-8x22B-Instruct-v0.1	10	20.57	629.7	30.24	28.02	224.71
Mixtral-8x22B-Instruct-v0.1	100	27.58	592.49	21.34	36.80	1609.85

AI Gateway 하드웨어 요구 사항#

AI Gateway 하드웨어 권장 사항은 AI Gateway 스케일링 권장 사항을 참조하세요.