Project
Disaster Recovery
멀티 리전 기반 재해 복구(DR) 체계 구축. Primary Region(Seoul) 장애 시 Secondary Region(Oregon)으로 자동 전환하는 Warm/Cold Standby 전략 설계 및 구현. Terraform 기반 IaC, Global Accelerator 트래픽 전환, Chaos Engineering 기반 DR 훈련까지 포함합니다.
2
리전 구성
Seoul (Primary) + Oregon
9+
DR 대상 서비스
EC2, ECS, EBS, EFS, S3 등
IaC
인프라 자동화
Terraform 기반 프로비저닝
7단계
DR 전환 플로우
감지 → 전환 → 복구 → Failback
DR Flow
01
개요 & 정의
DR 아키텍처 개요, RTO/RPO 정의, Warm/Cold Standby 전략, 재난 상황 정의
02
인프라 & IaC
Terraform 설정 스터디, AWS CLI vs Terraform, CloudFormation 비교, 멀티 리전 IaC 구성
03
리소스 사전 생성
IAM, EBS, EFS, S3, ECR, NLB, NAT Gateway, API Gateway, SSM 등 Secondary Region 리소스 사전 구성
04
네트워크 & 트래픽
VPN 연결, Global Accelerator, LB Routing, HealthCheck, NACL, 사설 IP 구성
05
장애 전환 (Failover)
DR 감지 후 Secondary Region 활성화, 트래픽 전환, ECS + Fargate + ECR 기동, health check 스크립트
06
복구 (Failback)
Primary Region 복구 task 정의, 재난 종료 후 Primary 활성화 & Secondary 비활성화 기준
07
모니터링 & 지표
DR 감지 지표, DR 성능 지표/자원 모니터링, 소프트웨어 누실 확인, DB 손실 범위 파악
08
혼란 테스트 & DR 훈련
AWS Fault Injection Simulator, Chaos Engineering 원칙, 혼란 테스트 자동화 스크립트, DR 훈련
09
서비스 설정 & 운영
Service 변경 상세, DB 설정, Kafka 처리, Sterling 자동화, ELB/ALB 구성
Tech Stack