Amazon EKS Teleport 클러스터에서 재해 복구 관리

리전 장애 후 EKS의 자체 호스팅 Teleport 클러스터를 복구하는 전략 수립 지침을 제공합니다.

클라우드 제공자 리전에서 장애가 발생하는 경우 Teleport 클러스터를 정상 상태로 복구할 수 있어야 합니다. 이 가이드에서는 자체 호스팅 Teleport 클러스터에 대한 재해 복구 접근 방식의 개요를 제공합니다. 이 가이드는 자체 호스팅 Teleport 클러스터가 Amazon Elastic Kubernetes Service에서 실행되고 teleport-cluster Helm 차트를 사용한다고 가정합니다. teleport-cluster Helm 차트는 Kubernetes에서 Teleport 클러스터를 빠르게 자체 호스팅하기 위해 권장되는 접근 방식이며, 차트 시작 방법은 Kubernetes에 Teleport 배포 에서 읽을 수 있습니다. 작동 방식 # 이 가이드에서 설명하는 접근 방식에서 AWS는 Teleport Auth Service 백엔드를 보조 리전에 백업합니다. 기본 리전이 장애로 인해 사용할 수 없게 되면 관리자는 보조 리전에 클러스터를 재배포하여 해당 리전의 새 백엔드에 연결하도록 Teleport Auth Service를 구성합니다. Teleport 인증 기관은 이미 새 리전에 백업되어 있으므로 사용할 수 없는 리전 외부에서 실행되는 Teleport 에이전트와 봇은 클러스터에 재연결할 필요가 없습니다. 이 재해 복구 시나리오에서 복구 시간 목표는 새 리전에서 Auth Service와 Proxy Service를 재배포하는 데 걸리는 시간과 Teleport Proxy Service DNS 레코드의 TTL(Time to Live)에 따라 달라집니다. 사전 요구사항 # 자체 호스팅 Teleport 클러스터가 teleport-cluster Helm 차트를 사용하여 실행되었습니다. 자체 호스팅 Teleport 클러스터의 고수준 아키텍처 개요는 고가용성 Teleport 클러스터 배포 를 읽어보는 것을 권장합니다. 클러스터 상태 백엔드 및 감사 이벤트 백엔드에는 Amazon DynamoDB를, 세션 녹화 백엔드에는 Amazon S3를 사용하고 있습니다. Teleport 백엔드 선택에 대한 정보는 스토리지 백엔드 를 참조하세요. 위험 이 가이드는 리전 장애에 대한 런북으로 의도되지 않았습니다. 런북 및 자동화를 포함한 재해 복구 계획 준비에 도움이 되도록 이 가이드를 읽으세요. 문제를 방지하기 위해 계획을 정기적으로 테스트할 것을 강력히 권장합니다. 1단계/4. Auth Service 백엔드 백업 # EKS의 Teleport 클러스터에 대한 재해 복구 절차를 설정하는 첫 번째 단계는 Teleport Auth Service 백엔드를 보조 리전에 백업하는 것입니다. 기본 리전을 사용할 수 없게 되면 보조 리전의 백엔드 복제본이 보조 리전에 재배포한 새 클러스터가 연결할 준비가 됩니다. 리전 장애 중 Teleport 클러스터의 복구 지점 목표는 Auth Service 백엔드를 얼마나 자주 백업하는지에 따라 달라집니다. 백업이 빈번할수록 재해 복구 시 클러스터를 복구할 때 잃는 백엔드 변경 사항이 줄어듭니다. 클러스터 상태 백엔드 # 클러스터 상태