🔄
05 / 09
장애 전환 (Failover)
DR 감지 후 Secondary Region 활성화, 트래픽 전환, ECS + Fargate + ECR 기동, health check 스크립트
FailoverECSFargateHealth Check
38개
전체 단계
Runbook Steps
34개
자동화
89% 자동화
3개
수동
Manual Steps
~30분
예상 소요
Failover 기준
Phase 1 — Failover (Secondary Region 전환)
DR 감지 후 Secondary Region으로 트래픽 전환 및 서비스 활성화
| # | 상태 | 카테고리 | 작업 | 소요 시간 | 자동화 |
|---|---|---|---|---|---|
| 01 | 진행 | DR 선언 | 프로세스 따라 진행 | 30분 내외 | 수동 |
| 02 | 시작 전 | 트래픽 전환 (스크립트) | EC2 인스턴스 상태 변경 (stop → start) — PRD, DB, REP DB, API Gateway, Console/DB | 40초 ~ 90초 | 자동 |
| 03 | 시작 전 | 트래픽 전환 (스크립트) | 서버 내부 app 활성화 (사전 생성한 script 실행 및 자동 실행) | 1~2분 | 자동 |
| 04 | 시작 전 | 트래픽 전환 (스크립트) | ECS Fargate task 활성화 | 30초 | 자동 |
| 05 | 시작 전 | Health Check (스크립트) | PRD 서버 내부 점검 | 1~2분 | 자동 |
| 06 | 시작 전 | Health Check (스크립트) | DB 서버 내부 점검 | 1~2분 | 자동 |
| 07 | 시작 전 | Health Check (스크립트) | 서버간 통신 점검 (모듈 간 통신) | 1~2분 | 자동 |
| 08 | 시작 전 | Health Check (스크립트) | ECS application level 상태 점검 | 1~2분 | 자동 |
| 09 | 시작 전 | Health Check (스크립트) | ECS NAT Gateway 트래픽 점검 | 1~2분 | 자동 |
| 10 | 시작 전 | Health Check (스크립트) | API Gateway 트래픽 점검 | 1~2분 | 자동 |
| 11 | 시작 전 | Health Check (스크립트) | ECS ↔ Agent ↔ GCP DB 통신 확인 | 1~2분 | 자동 |
| 12 | 시작 전 | Health Check (스크립트) | ECS ↔ Kafka 통신 확인 | 1~2분 | 자동 |
| 13 | 시작 전 | 트래픽 전환 (스크립트) | Global Accelerator Secondary Region 활성화 | 10초 | 자동 |
| 14 | 시작 전 | Health Check (스크립트) | EC2 외부 통신 점검 | 1~2분 | 자동 |
| 15 | 시작 전 | Health Check (스크립트) | ECS 외부 통신 점검 | 1~2분 | 자동 |
| 16 | 시작 전 | Health Check (스크립트) | 외부 통신 점검 — 외부 → GA IP → Proxy → Sterling | — | 수동 |
Phase 2 — Failback (Primary Region 복구)
재난 종료 후 Primary Region으로 트래픽 재전환
| # | 상태 | 카테고리 | 작업 | 소요 시간 | 자동화 |
|---|---|---|---|---|---|
| 20 | 시작 전 | Seoul 전환 확정 | 재난 상황 종료 판단 → Seoul Region 트래픽 전환 확정 | — | 자동 |
| 21 | 시작 전 | 트래픽 전환 (스크립트) | EC2 인스턴스 상태 변경 | — | 자동 |
| 22 | 시작 전 | 트래픽 전환 (스크립트) | 서버 내부 app 활성화 (사전 생성한 script 실행) | — | 자동 |
| 23 | 시작 전 | 트래픽 전환 (스크립트) | ECS Fargate task 활성화 | — | 자동 |
| 24 | 시작 전 | Health Check (스크립트) | PRD 서버 내부 점검 | — | 자동 |
| 25 | 시작 전 | Health Check (스크립트) | DB 서버 내부 점검 | — | 자동 |
| 26 | 시작 전 | Health Check (스크립트) | 서버 통신 점검 | — | 자동 |
| 27 | 시작 전 | Health Check (스크립트) | ECS application level 상태 점검 | — | 자동 |
| 28 | 시작 전 | Health Check (스크립트) | ECS NAT Gateway 트래픽 점검 | — | 자동 |
| 29 | 시작 전 | Health Check (스크립트) | ECS API Gateway 트래픽 점검 | — | 자동 |
| 30 | 시작 전 | Health Check (스크립트) | ECS ↔ Agent ↔ GCP DB 통신 확인 | — | 자동 |
| 31 | 시작 전 | Health Check (스크립트) | ECS ↔ Kafka 연동 | — | 자동 |
| 32 | 시작 전 | 트래픽 전환 (스크립트) | Global Accelerator Seoul Region 활성화 | — | 자동 |
| 33 | 시작 전 | Health Check (스크립트) | ECS 외부 통신 점검 | — | 자동 |
| 34 | 시작 전 | Health Check (스크립트) | ECS ↔ Agent ↔ GCP DB 통신 점검 | — | 자동 |
| 35 | 시작 전 | Health Check (스크립트) | ECS 외부 통신 점검 | — | 자동 |
| 36 | 시작 전 | Health Check (스크립트) | ECS ↔ Kafka 연동 점검 | — | 자동 |
| 37 | 시작 전 | Health Check (스크립트) | 외부 접근 점검 | — | 자동 |
Phase 3 — 데이터 복구
Secondary → Primary Region 데이터 동기화 (EBS, ECR, EFS)
| # | 상태 | 카테고리 | 작업 | 소요 시간 | 자동화 |
|---|---|---|---|---|---|
| 38 | 시작 전 | 데이터 복구 | 데이터 복구 작업 시작 선언 | — | 수동 |
| 41 | 시작 전 | 데이터 복구 | Secondary → Primary 데이터 복구 (EBS) | — | 자동 |
| 42 | 시작 전 | 데이터 복구 | Secondary → Primary 데이터 복구 (ECR) | — | 자동 |
| 43 | 시작 전 | 데이터 복구 | Secondary → Primary 데이터 복구 (EFS) [미정] | — | — |
Note
- • 구체적인 작업 내용은 '리소스 사전 생성' 섹션에서 확인 가능합니다
- • DR 감지 점수표에 따라 DR 선언 여부를 판단합니다
- • 로그는 CloudTrail 로그 그룹에 기록됩니다
- • 외부 통신 점검(16단계)은 수동으로 진행합니다