← Disaster Recovery
🔄

05 / 09

장애 전환 (Failover)

DR 감지 후 Secondary Region 활성화, 트래픽 전환, ECS + Fargate + ECR 기동, health check 스크립트

FailoverECSFargateHealth Check
개요 & 정의인프라 & IaC리소스 사전 생성네트워크 & 트래픽장애 전환 (Failover)복구 (Failback)모니터링 & 지표혼란 테스트 & DR 훈련서비스 설정 & 운영

38개

전체 단계

Runbook Steps

34개

자동화

89% 자동화

3개

수동

Manual Steps

~30분

예상 소요

Failover 기준

Phase 1 — Failover (Secondary Region 전환)

DR 감지 후 Secondary Region으로 트래픽 전환 및 서비스 활성화

#상태카테고리작업소요 시간자동화
01진행DR 선언프로세스 따라 진행30분 내외수동
02시작 전트래픽 전환 (스크립트)EC2 인스턴스 상태 변경 (stop → start) — PRD, DB, REP DB, API Gateway, Console/DB40초 ~ 90초자동
03시작 전트래픽 전환 (스크립트)서버 내부 app 활성화 (사전 생성한 script 실행 및 자동 실행)1~2분자동
04시작 전트래픽 전환 (스크립트)ECS Fargate task 활성화30초자동
05시작 전Health Check (스크립트)PRD 서버 내부 점검1~2분자동
06시작 전Health Check (스크립트)DB 서버 내부 점검1~2분자동
07시작 전Health Check (스크립트)서버간 통신 점검 (모듈 간 통신)1~2분자동
08시작 전Health Check (스크립트)ECS application level 상태 점검1~2분자동
09시작 전Health Check (스크립트)ECS NAT Gateway 트래픽 점검1~2분자동
10시작 전Health Check (스크립트)API Gateway 트래픽 점검1~2분자동
11시작 전Health Check (스크립트)ECS ↔ Agent ↔ GCP DB 통신 확인1~2분자동
12시작 전Health Check (스크립트)ECS ↔ Kafka 통신 확인1~2분자동
13시작 전트래픽 전환 (스크립트)Global Accelerator Secondary Region 활성화10초자동
14시작 전Health Check (스크립트)EC2 외부 통신 점검1~2분자동
15시작 전Health Check (스크립트)ECS 외부 통신 점검1~2분자동
16시작 전Health Check (스크립트)외부 통신 점검 — 외부 → GA IP → Proxy → Sterling수동

Phase 2 — Failback (Primary Region 복구)

재난 종료 후 Primary Region으로 트래픽 재전환

#상태카테고리작업소요 시간자동화
20시작 전Seoul 전환 확정재난 상황 종료 판단 → Seoul Region 트래픽 전환 확정자동
21시작 전트래픽 전환 (스크립트)EC2 인스턴스 상태 변경자동
22시작 전트래픽 전환 (스크립트)서버 내부 app 활성화 (사전 생성한 script 실행)자동
23시작 전트래픽 전환 (스크립트)ECS Fargate task 활성화자동
24시작 전Health Check (스크립트)PRD 서버 내부 점검자동
25시작 전Health Check (스크립트)DB 서버 내부 점검자동
26시작 전Health Check (스크립트)서버 통신 점검자동
27시작 전Health Check (스크립트)ECS application level 상태 점검자동
28시작 전Health Check (스크립트)ECS NAT Gateway 트래픽 점검자동
29시작 전Health Check (스크립트)ECS API Gateway 트래픽 점검자동
30시작 전Health Check (스크립트)ECS ↔ Agent ↔ GCP DB 통신 확인자동
31시작 전Health Check (스크립트)ECS ↔ Kafka 연동자동
32시작 전트래픽 전환 (스크립트)Global Accelerator Seoul Region 활성화자동
33시작 전Health Check (스크립트)ECS 외부 통신 점검자동
34시작 전Health Check (스크립트)ECS ↔ Agent ↔ GCP DB 통신 점검자동
35시작 전Health Check (스크립트)ECS 외부 통신 점검자동
36시작 전Health Check (스크립트)ECS ↔ Kafka 연동 점검자동
37시작 전Health Check (스크립트)외부 접근 점검자동

Phase 3 — 데이터 복구

Secondary → Primary Region 데이터 동기화 (EBS, ECR, EFS)

#상태카테고리작업소요 시간자동화
38시작 전데이터 복구데이터 복구 작업 시작 선언수동
41시작 전데이터 복구Secondary → Primary 데이터 복구 (EBS)자동
42시작 전데이터 복구Secondary → Primary 데이터 복구 (ECR)자동
43시작 전데이터 복구Secondary → Primary 데이터 복구 (EFS) [미정]

Note

  • • 구체적인 작업 내용은 '리소스 사전 생성' 섹션에서 확인 가능합니다
  • • DR 감지 점수표에 따라 DR 선언 여부를 판단합니다
  • • 로그는 CloudTrail 로그 그룹에 기록됩니다
  • • 외부 통신 점검(16단계)은 수동으로 진행합니다
네트워크 & 트래픽복구 (Failback)