InfoGrab DocsInfoGrab Docs

Gemini Enterprise Agent Platform 모델 활성화 프로세스

요약

Model Enablement Request 템플릿을 사용합니다. 활성화할 모델(예: Codestral)을 지정합니다. 가시성 확보를 위해 #ai-infrastructure 채널에 이슈 링크를 공유합니다. 팀은 Gemini Enterprise Agent Platform 콘솔을 통해 모델을 활성화합니다("enable 클릭").

프로덕션 환경 설정#

1. 요청 시작#

Model Enablement Request 템플릿을 사용합니다. 아래를 참고하세요.

  • 활성화할 모델(예: Codestral)을 지정합니다.

  • 가시성 확보를 위해 #ai-infrastructure 채널에 이슈 링크를 공유합니다.

2. 요청 처리#

  • 요청은 다음 팀 중 하나에서 처리합니다:

인프라 팀(Infra)

  • AI Framework 팀(AIF)

3. 모델 활성화#

  • Gemini Enterprise Agent Platform 모델의 경우:

팀은 Gemini Enterprise Agent Platform 콘솔을 통해 모델을 활성화합니다("enable 클릭").

  • 커스텀 구성의 경우:

AIF 팀이 커스터마이제이션 필요 사항을 위해 Google에 티켓을 등록합니다.

4. 할당량 관리#

  • 기존 할당량 모니터링은 AI-gateway 대시보드에서 확인할 수 있습니다. 왼쪽 상단의 작은 화살표를 클릭하여 모델별 할당량 사용량을 드릴다운해 확인하세요.

  • 모든 할당량이 모니터링에 표시되는 것은 아니며, 표시되는 모든 할당량은 gitlab-ai-framework-prod 프로젝트의 GCP 콘솔에서 확인할 수 있습니다.

  • 할당량 용량 예측은 tamland에서 확인할 수 있습니다.

  • 공유 리소스의 할당량 증가는 Google에 요청해야 합니다.

  • 정당성이 있는 경우 Google에서 프로비저닝된 처리량(provisioned throughput)을 구매할 수 있습니다.

  • 할당량이 충분한 경우에도, Anthropic의 리소스 프로비저닝 모델로 인해 고수요 기간에는 요청이 제한될 수 있습니다. 리소스를 과잉 프로비저닝하는 직접 Google 서비스와 달리, Anthropic은 실제 수요를 기반으로 프로비저닝합니다. 제한 없이 일관된 처리량을 보장하려면 Anthropic을 통해 전용 프로비저닝 처리량을 구매할 수 있습니다.

로드 테스트 환경 설정#

1. 환경 선택#

  • 선택 옵션:

ai-framework-dev

  • ai-framework-stage

  • 전용 로드 테스트 환경(예: 샌드박스 프로젝트)

2. 액세스 요청#

  • 템플릿을 사용하여 액세스 요청을 생성합니다.

  • 프로젝트에 대한 roles/writer 권한을 요청합니다.

3. 환경 구성#

  • 프로덕션에서 동일한 모델 구성을 그대로 복제합니다.

  • 다음을 방지하기 위해 프로덕션과 격리를 보장합니다:

로드 테스트가 프로덕션 트래픽을 방해하는 경우

  • 외부 트래픽이 로드 테스트 결과를 왜곡하는 경우

4. 모델 검증#

  • 모델 사양이 프로덕션 환경과 일치하는지 확인합니다.

  • 테스트 실행 전에 할당량 및 용량을 검증합니다.

모범 사례#

  • 프로덕션에 배포하기 전에 새 모델 또는 모델 버전을 테스트합니다.

  • 사용자에게 영향을 미치지 않도록 로드 테스트에는 격리된 환경을 사용합니다.

  • 테스트 중 GPU 용량 문제 및 속도 제한을 모니터링합니다.

  • 향후 참고를 위해 구성 변경 사항을 문서화합니다.

모델 활성화 요청 템플릿#

### Model Details

- **Model Name**: [e.g., Codestral, Claude 3 Opus, etc.]
- **Provider**: [e.g., Gemini Enterprise Agent Platform, Anthropic, etc.]
- **Model Version/Edition**: [e.g., v1, Sonnet, Haiku, etc.]

### Business Justification

- **Purpose**: [Brief description of how this model will be used]
- **Features/Capabilities Required**: [Specific capabilities needed from this model]
- **Expected Impact**: [How this model will improve GitLab features/services]

### Technical Requirements

- **Environment(s)**: [Production, Staging, Dev, etc.]
- **Expected Traffic/Usage**: [Estimated QPS, daily usage, etc.]
- **Required Quotas**: [TPU/GPU hours, tokens per minute, etc. if known]
- **Integration Point**: [Which GitLab service(s) will use this model]

### Timeline

- **Requested By Date**: [When you need this model to be available]
- **Testing Period**: [Planned testing dates before full deployment]

### Additional Information

- **Special Configuration Needs**: [Any custom settings needed]
- **Similar Models Already Enabled**: [For reference/comparison]
- **Links to Relevant Documentation**: [Model documentation, internal specs, etc.]

/label ~"group::ai framework"

Gemini Enterprise Agent Platform 모델 활성화 프로세스

GitLab v19.1
원문 보기
요약

Model Enablement Request 템플릿을 사용합니다. 활성화할 모델(예: Codestral)을 지정합니다. 가시성 확보를 위해 #ai-infrastructure 채널에 이슈 링크를 공유합니다. 팀은 Gemini Enterprise Agent Platform 콘솔을 통해 모델을 활성화합니다("enable 클릭").

프로덕션 환경 설정#

1. 요청 시작#

Model Enablement Request 템플릿을 사용합니다. 아래를 참고하세요.

  • 활성화할 모델(예: Codestral)을 지정합니다.

  • 가시성 확보를 위해 #ai-infrastructure 채널에 이슈 링크를 공유합니다.

2. 요청 처리#

  • 요청은 다음 팀 중 하나에서 처리합니다:

인프라 팀(Infra)

  • AI Framework 팀(AIF)

3. 모델 활성화#

  • Gemini Enterprise Agent Platform 모델의 경우:

팀은 Gemini Enterprise Agent Platform 콘솔을 통해 모델을 활성화합니다("enable 클릭").

  • 커스텀 구성의 경우:

AIF 팀이 커스터마이제이션 필요 사항을 위해 Google에 티켓을 등록합니다.

4. 할당량 관리#

  • 기존 할당량 모니터링은 AI-gateway 대시보드에서 확인할 수 있습니다. 왼쪽 상단의 작은 화살표를 클릭하여 모델별 할당량 사용량을 드릴다운해 확인하세요.

  • 모든 할당량이 모니터링에 표시되는 것은 아니며, 표시되는 모든 할당량은 gitlab-ai-framework-prod 프로젝트의 GCP 콘솔에서 확인할 수 있습니다.

  • 할당량 용량 예측은 tamland에서 확인할 수 있습니다.

  • 공유 리소스의 할당량 증가는 Google에 요청해야 합니다.

  • 정당성이 있는 경우 Google에서 프로비저닝된 처리량(provisioned throughput)을 구매할 수 있습니다.

  • 할당량이 충분한 경우에도, Anthropic의 리소스 프로비저닝 모델로 인해 고수요 기간에는 요청이 제한될 수 있습니다. 리소스를 과잉 프로비저닝하는 직접 Google 서비스와 달리, Anthropic은 실제 수요를 기반으로 프로비저닝합니다. 제한 없이 일관된 처리량을 보장하려면 Anthropic을 통해 전용 프로비저닝 처리량을 구매할 수 있습니다.

로드 테스트 환경 설정#

1. 환경 선택#

  • 선택 옵션:

ai-framework-dev

  • ai-framework-stage

  • 전용 로드 테스트 환경(예: 샌드박스 프로젝트)

2. 액세스 요청#

  • 템플릿을 사용하여 액세스 요청을 생성합니다.

  • 프로젝트에 대한 roles/writer 권한을 요청합니다.

3. 환경 구성#

  • 프로덕션에서 동일한 모델 구성을 그대로 복제합니다.

  • 다음을 방지하기 위해 프로덕션과 격리를 보장합니다:

로드 테스트가 프로덕션 트래픽을 방해하는 경우

  • 외부 트래픽이 로드 테스트 결과를 왜곡하는 경우

4. 모델 검증#

  • 모델 사양이 프로덕션 환경과 일치하는지 확인합니다.

  • 테스트 실행 전에 할당량 및 용량을 검증합니다.

모범 사례#

  • 프로덕션에 배포하기 전에 새 모델 또는 모델 버전을 테스트합니다.

  • 사용자에게 영향을 미치지 않도록 로드 테스트에는 격리된 환경을 사용합니다.

  • 테스트 중 GPU 용량 문제 및 속도 제한을 모니터링합니다.

  • 향후 참고를 위해 구성 변경 사항을 문서화합니다.

모델 활성화 요청 템플릿#

### Model Details

- **Model Name**: [e.g., Codestral, Claude 3 Opus, etc.]
- **Provider**: [e.g., Gemini Enterprise Agent Platform, Anthropic, etc.]
- **Model Version/Edition**: [e.g., v1, Sonnet, Haiku, etc.]

### Business Justification

- **Purpose**: [Brief description of how this model will be used]
- **Features/Capabilities Required**: [Specific capabilities needed from this model]
- **Expected Impact**: [How this model will improve GitLab features/services]

### Technical Requirements

- **Environment(s)**: [Production, Staging, Dev, etc.]
- **Expected Traffic/Usage**: [Estimated QPS, daily usage, etc.]
- **Required Quotas**: [TPU/GPU hours, tokens per minute, etc. if known]
- **Integration Point**: [Which GitLab service(s) will use this model]

### Timeline

- **Requested By Date**: [When you need this model to be available]
- **Testing Period**: [Planned testing dates before full deployment]

### Additional Information

- **Special Configuration Needs**: [Any custom settings needed]
- **Similar Models Already Enabled**: [For reference/comparison]
- **Links to Relevant Documentation**: [Model documentation, internal specs, etc.]

/label ~"group::ai framework"