재해 복구(Geo) 프로모션 런북
Offering: GitLab Self-Managed
이 런북은 실험적입니다. 이 런북은 하나의 보조 사이트가 있는 단일 노드 Geo 사이트의 계획된 페일오버를 안내합니다. 이 단계를 따르기 전에 Geo 복제본을 프로모션하고 페일오버를 수행하는 자동화된 방법이 없으므로 보조 사이트에 root 접근 권한이 있는지 확인하세요.
재해 복구(Geo) 프로모션 런북.
단일 노드 구성에 대한 Geo 계획된 페일오버#
| 구성 요소 | 구성 |
|---|---|
| PostgreSQL | Linux 패키지로 관리됨 |
| Geo 사이트 | 단일 노드 |
| 보조 사이트 | 하나 |
이 런북은 하나의 보조 사이트가 있는 단일 노드 Geo 사이트의 계획된 페일오버를 안내합니다. 다음 일반 아키텍처를 가정합니다:
기본 사이트:
- GitLab 노드
보조 사이트:
- GitLab 노드
이 가이드의 결과:
- 오프라인 기본 사이트.
- 이제 새 기본 사이트인 프로모션된 보조 사이트.
다루지 않는 내용:
- 이전 기본 사이트를 보조 사이트로 다시 추가.
- 새 보조 사이트 추가.
준비#
이 단계를 따르기 전에 Geo 복제본을 프로모션하고 페일오버를 수행하는 자동화된 방법이 없으므로
보조 사이트에 root 접근 권한이 있는지 확인하세요.
보조 사이트에서 관리자 영역 > Geo 대시보드로 이동하여 상태를 검토합니다. 복제된 객체(녹색으로 표시됨)가 100%에 가까워야 하며 실패(빨간색으로 표시됨)가 없어야 합니다. 아직 복제되지 않은 객체(회색으로 표시됨)의 비율이 크면 사이트가 완료할 수 있도록 더 많은 시간을 고려하세요.

복제에 실패하는 객체가 있으면 유지 관리 기간을 예약하기 전에 조사해야 합니다. 계획된 페일오버 후에는 복제에 실패한 모든 항목이 손실됩니다.
복제 실패의 일반적인 원인은 기본 사이트에 데이터가 없는 것입니다. 백업에서 데이터를 복원하거나 누락된 데이터에 대한 참조를 제거하여 이러한 실패를 해결할 수 있습니다.
유지 관리 기간은 Geo 복제 및 확인이 완전히 완료될 때까지 끝나지 않습니다. 기간을 최대한 짧게 유지하려면 활성 사용 중에 이 프로세스가 가능한 한 100%에 가까워야 합니다.
보조 사이트가 여전히 기본 사이트에서 데이터를 복제하는 경우 불필요한 데이터 손실을 방지하려면 다음 단계를 따르세요:
-
읽기 전용 모드가 구현될 때까지 기본 사이트에서 수동으로 업데이트가 발생하지 않도록 해야 합니다. 보조 사이트는 유지 관리 기간 동안 기본 사이트에 대한 읽기 전용 접근이 필요합니다:
-
예약된 시간에 클라우드 제공업체 또는 사이트의 방화벽을 사용하여 사용자 IP 및 보조 사이트 IP를 제외한 기본 사이트와의 모든 HTTP, HTTPS 및 SSH 트래픽을 차단합니다.
예를 들어 기본 사이트에서 다음 명령을 실행할 수 있습니다:
sudo iptables -A INPUT -p tcp -s <secondary_site_ip> --destination-port 22 -j ACCEPT sudo iptables -A INPUT -p tcp -s <your_ip> --destination-port 22 -j ACCEPT sudo iptables -A INPUT --destination-port 22 -j REJECT sudo iptables -A INPUT -p tcp -s <secondary_site_ip> --destination-port 80 -j ACCEPT sudo iptables -A INPUT -p tcp -s <your_ip> --destination-port 80 -j ACCEPT sudo iptables -A INPUT --tcp-dport 80 -j REJECT sudo iptables -A INPUT -p tcp -s <secondary_site_ip> --destination-port 443 -j ACCEPT sudo iptables -A INPUT -p tcp -s <your_ip> --destination-port 443 -j ACCEPT sudo iptables -A INPUT --tcp-dport 443 -j REJECT이 시점부터 사용자는 기본 사이트에서 데이터를 보거나 변경할 수 없습니다. 또한 보조 사이트에 로그인할 수도 없습니다. 그러나 기존 세션은 유지 관리 기간의 나머지 동안 작동해야 하므로 공개 데이터는 전체적으로 접근 가능합니다.
-
다른 IP를 통해 브라우저에서 기본 사이트를 방문하여 HTTP 트래픽이 차단되었는지 확인합니다. 서버가 연결을 거부해야 합니다.
-
SSH 원격 URL로 기존 Git 리포지터리를 pull하여 기본 사이트가 SSH를 통한 Git 트래픽을 차단했는지 확인합니다. 서버가 연결을 거부해야 합니다.
-
기본 사이트에서:
- 오른쪽 상단 모서리에서 Admin을 선택합니다.
- 왼쪽 사이드바에서 Monitoring > Background jobs를 선택합니다.
- Sidekiq 대시보드에서 Cron을 선택합니다.
- Disable All을 선택하여 비 Geo 주기적 백그라운드 잡을 비활성화합니다.
geo_sidekiq_cron_config_workercron 잡에 대해Enable을 선택합니다. 이 잡은 계획된 페일오버가 성공적으로 완료되는 데 필수적인 몇 가지 다른 cron 잡을 다시 활성화합니다.
-
-
모든 데이터를 복제하고 확인하여 완료합니다:
[!warning] 모든 데이터가 자동으로 복제되는 것은 아닙니다. 자세한 내용은 제외된 항목을 참조하세요.
-
Geo에서 관리하지 않는 데이터를 수동으로 복제하는 경우 최종 복제 프로세스를 지금 트리거합니다.
-
기본 사이트에서:
-
오른쪽 상단 모서리에서 Admin을 선택합니다.
-
왼쪽 사이드바에서 Monitoring > Background jobs를 선택합니다.
-
Sidekiq 대시보드에서 Queues를 선택하고 이름에
geo가 있는 큐를 제외한 모든 큐가 0으로 내려갈 때까지 기다립니다. 이 큐에는 사용자가 제출한 작업이 포함되어 있으며 완료되기 전에 페일오버하면 작업이 손실됩니다. -
왼쪽 사이드바에서 Geo > Sites를 선택하고 페일오버하는 보조 사이트에 대해 다음 조건이 충족될 때까지 기다립니다:
- 모든 복제 미터가 100% 복제됨, 0% 실패에 도달합니다.
- 모든 확인 미터가 100% 확인됨, 0% 실패에 도달합니다.
- 데이터베이스 복제 지연이 0 ms입니다.
- Geo 로그 커서가 최신 상태입니다(0 이벤트 지연).
-
-
보조 사이트에서:
- 오른쪽 상단 모서리에서 Admin을 선택합니다.
- 왼쪽 사이드바에서 Monitoring > Background jobs를 선택합니다.
- Sidekiq 대시보드에서 Queues를 선택하고 모든
geo큐가 대기 중인 잡 0개 및 실행 중인 잡 0개로 내려갈 때까지 기다립니다. - 무결성 검사를 실행하여 파일 스토리지의 CI 아티팩트, LFS 객체 및 업로드의 무결성을 확인합니다.
이 시점에서 보조 사이트에는 기본 사이트가 가진 모든 항목의 최신 복사본이 포함되어 있으며 페일오버 시 아무것도 손실되지 않습니다.
-
-
이 마지막 단계에서 기본 사이트를 영구적으로 비활성화해야 합니다.
[!warning] 기본 사이트가 오프라인 상태가 되면 보조 사이트에 복제되지 않은 기본 사이트에 저장된 데이터가 있을 수 있습니다. 진행하면 이 데이터는 손실된 것으로 처리해야 합니다.
기본 도메인 DNS 레코드를 업데이트할 계획이라면 전파 속도를 높이기 위해 지금 TTL을 낮출 수 있습니다.
페일오버를 수행할 때 두 개의 다른 GitLab 인스턴스에서 쓰기가 발생할 수 있는 분리 브레인 상황을 방지해야 합니다. 따라서 페일오버를 준비하려면 기본 사이트를 비활성화해야 합니다:
-
기본 사이트에 SSH 접근 권한이 있는 경우 GitLab을 중지하고 비활성화합니다:
sudo gitlab-ctl stop서버가 예기치 않게 재부팅되는 경우 GitLab이 다시 시작되지 않도록 합니다:
sudo systemctl disable gitlab-runsvdir[!note]
- CentOS 6 이하에서는 머신이 재부팅되는 경우 GitLab이 시작되지 않도록 하는 것이 어렵습니다(이슈 3058 참조).
sudo yum remove gitlab-ee로 GitLab 패키지를 완전히 제거하는 것이 가장 안전할 수 있습니다. - Ubuntu 14.04 LTS와 같은 이전 버전의 Ubuntu 또는 Upstart init 시스템을 기반으로 한 다른 배포판을 사용하는 경우
root로initctl stop gitlab-runsvvdir && echo 'manual' > /etc/init/gitlab-runsvdir.override && initctl reload-configuration을 사용하여 머신이 재부팅되는 경우 GitLab이 시작되지 않도록 할 수 있습니다.
- CentOS 6 이하에서는 머신이 재부팅되는 경우 GitLab이 시작되지 않도록 하는 것이 어렵습니다(이슈 3058 참조).
-
기본 사이트에 SSH 접근 권한이 없는 경우 머신을 오프라인 상태로 만들고 재부팅되지 않도록 합니다. 이를 수행하는 방법이 많이 있으므로 단일 권장 사항을 피합니다. 다음이 필요할 수 있습니다:
- 로드 밸런서 재구성.
- DNS 레코드 변경(예: 기본 DNS 레코드를 보조 사이트로 지정하여 기본 사이트 사용 중지).
- 가상 서버 중지.
- 방화벽을 통한 트래픽 차단.
- 기본 사이트에서 오브젝트 스토리지 권한 취소.
- 머신 물리적 연결 해제.
-
보조 사이트 프로모션#
보조 사이트를 프로모션할 때 다음 사항에 유의하세요:
- 새 보조 사이트는 이 시점에 추가하면 안 됩니다. 새 보조 사이트를 추가하려면 보조 사이트를 기본 사이트로 프로모션하는 전체 프로세스를 완료한 후에 추가합니다.
- 이 프로세스 중에
ActiveRecord::RecordInvalid: Validation failed: Name has already been taken오류가 발생하면 트러블슈팅 조언을 읽어보세요.
보조 사이트를 프로모션하려면:
-
보조 사이트에 SSH로 접속하고 다음 명령 중 하나를 실행합니다:
-
보조 사이트를 기본 사이트로 프로모션하려면:
sudo gitlab-ctl geo promote -
추가 확인 없이 보조 사이트를 기본 사이트로 프로모션하려면:
sudo gitlab-ctl geo promote --force
-
-
이전에 보조 사이트에 사용된 URL을 사용하여 새로 프로모션된 기본 사이트에 연결할 수 있는지 확인합니다.
성공하면 보조 사이트가 이제 기본 사이트로 프로모션되었습니다.
다음 단계#
가능한 한 빨리 지리적 중복성을 회복하려면 새 보조 사이트를 추가해야 합니다. 이를 위해 이전 기본 사이트를 새 보조 사이트로 다시 추가하고 온라인 상태로 되돌릴 수 있습니다.
