← Disaster Recovery
💥

08 / 09

혼란 테스트 & DR 훈련

AWS Fault Injection Simulator, Chaos Engineering 원칙, 혼란 테스트 자동화 스크립트, DR 훈련

Chaos EngineeringFISDR Drill
개요 & 정의인프라 & IaC리소스 사전 생성네트워크 & 트래픽장애 전환 (Failover)복구 (Failback)모니터링 & 지표혼란 테스트 & DR 훈련서비스 설정 & 운영

25

전체 테스트

16

완료

0

진행 중

9

시작 전

테스트 진행률

64%

완료진행시작 전

Cross-Region Replication 테스트

EBS, S3, ECR, EFS 교차 리전 복제 검증

6/7 완료
01
EBS완료2025.04.18 ~ 04.21

DLM 통한 EBS 리전 간 복제 활성화

EBS Cross-Region Replication 정상 동작 확인

테스트 방법

DLM 교차 리전 복제 활성화 후 스냅샷 2개씩 저장되는지 확인

02
EBS완료2025.04.21 ~ 04.23

Secondary Region 인스턴스에 최신 snapshot 기반 EBS 연결 자동화

Lambda 기반 EBS 자동 연결 파이프라인 검증

테스트 방법

1. Lambda 함수 생성 및 IAM 권한 설정 2. Lambda 실행 — 최신 복제 스냅샷 조회 → EBS 생성 → EC2 attach 3. 중지된 EC2 실행 시 자동 mount 확인 4. EventBridge로 하루 1회 Lambda 수행 설정

03
S3완료2025.04.21

S3 CRR 활성화 후 Object 업데이트 복제 확인

S3 Cross-Region Replication 정상 동작 확인

테스트 방법

CRR 설정 후 Bucket에 object 업데이트하여 복제 확인

피드백

CRR 설정 시 추가 복제 옵션 확인 필요

04
ECR완료2025.04.25

ECR CRR 활성화

ECR 이미지 교차 리전 복제 및 배포 확인

테스트 방법

CRR 설정 적용 확인 + 최신화된 ECR 기반 배포 정상 동작 확인

05
EFS완료2025.04.22

EFS 리전 간 복제 활성화

EFS Cross-Region Replication 정상 동작 확인

테스트 방법

mount target 설정, DNS 해석 활성화, 보안 그룹 설정, 복제 활성화 후 더미 파일로 복제 확인

06
EFS완료2025.04.23

EFS 복제본 장애 조치 활성화

EFS Replication 복제 설정 삭제 → 대상 EFS 쓰기 방지 해제 스크립트 검증

테스트 방법

EFS Replication 연결 해제 스크립트 테스트

07
EFS시작 전

EFS CRR 성능 측정

Secondary → Primary EFS 연결 해제 소요 시간 측정 (1.5 TiB 기준)

테스트 방법

수백 GiB ~ 수 TiB의 경우 보통 5~15분, 간혹 30분 이상 소요. EFS Replication 연결이 끊어져야 Secondary Region에서 EFS 쓰기 가능

데이터 복구 테스트

DataSync 기반 EFS 데이터 복구 검증

1/1 완료
01
EFS완료2025.04.23 ~ 04.24

EFS Secondary → Primary 데이터 복구 (DataSync)

DataSync를 통한 EFS 데이터 복구 검증

테스트 방법

1. 태스크 정의 — 변경된 데이터만 적용, 대상 EFS 파일 삭제 방지 설정 2. 기본값으로 시작 3. 변경된 파일만 전송되는지 확인 4. 기존 파일 삭제되지 않았는지 확인

트래픽 전환 스크립트 테스트

EC2, ECS, Global Accelerator 전환 스크립트 검증

3/4 완료
01
EC2완료2025.03

EC2 활성화 및 최신 EBS mount 확인

EC2 시작 시 최신 EBS 자동 mount 정상 동작 확인

테스트 방법

EC2 start → 최신 snapshot 기반 EBS mount 확인

02
EC2시작 전

서버 내 APP 실행 상태 만들기

인스턴스 시작 시 App 자동/수동 재시작 확인

테스트 방법

수동: start.sh 스크립트 또는 jar 파일 실행 자동: systemd 서비스 등록

03
ECS완료2025.03

Secondary Region ECS Fargate 활성화

ECS Fargate 서비스 업데이트 및 배포 완료 확인

테스트 방법

1. 현재 서비스 상태 확인 2. ECS Fargate 서비스 업데이트 3. runningCount == desiredCount 대기 4. 10초 단위 최대 10분(60회) 상태 체크

04
GA완료2025.04.11

Global Accelerator 트래픽 전환

GA 스크립트 기반 빠른 트래픽 전환 및 로그 기록 확인

테스트 방법

1. GA 테스트 환경 구성 (Seoul/Secondary 각각 자원 생성) 2. 스크립트 이용한 트래픽 전환 3. 전환에 따른 관련 로그 기록 확인

Health Check 스크립트 테스트

EC2, ECS, GA, LB 상태 점검 스크립트 검증

6/8 완료
01
EC2완료2025.03

EC2 APP & DB — LB Target Group 점검

포트 리스너 및 대상 그룹 트래픽 전달 확인

테스트 방법

1. 해당 포트로 리스너가 제대로 붙어 있는지 확인 2. 대상 그룹에 트래픽이 잘 전달되는지 확인

02
EC2완료2025.03

EC2 Internal Health Check (원격 점검)

로컬에서 원격으로 EC2 내부 상태 점검 및 로그 수집

테스트 방법

스크립트 연계로 EC2 내부 상태를 로컬에서 원격 점검 → 로그 파일 수집 netstat -tuln 명령어로 특정 포트 열림 확인

03
DB완료2025.03

EC2 DB — MariaDB 상태 확인 (원격)

원격 접속 후 MariaDB 상태 및 쿼리 응답 확인

테스트 방법

1. SQL 쿼리 실행 via Socket (실제 연결 + 쿼리 응답 확인) 2. pgrep -u mariadba mariadbd DEV DB는 DEV Server 경유 접속 → 테스트 단계에서는 DB 서버 내 로그 확인

04
ECS시작 전

ECS APP Health Check

ECS 애플리케이션 레벨 상태 점검

테스트 방법

Task Definition healthCheck 기반 HTTP 상태 검사

05
ECS시작 전

ECS DB Health Check

ECS DB 연결 상태 점검

테스트 방법

ECS 컨테이너 내 DB 연결 및 응답 확인

06
GA완료2025.04.11

Global Accelerator 트래픽 전환 상태 점검

GA 고정 IP를 통한 통신 정상 확인

테스트 방법

스크립트 이용한 GA 연결 포트 health check 포트별 요청 → 기대 응답 확인 (GA IP:8090/hello, GA IP:35443/hello)

피드백

실제 Secondary Region DR 서버에서도 특정 포트에 hello check app 띄워서 확인 권장

07
EC2완료2025.04.12

EC2 외부 통신 점검

EC2 → GA 가동 후 도메인별 포트 접속 및 Public LB target group 확인

테스트 방법

1. EC2 인스턴스 실행 → GA 가동 후 도메인별 포트 접속 확인 2. Public LB target group healthy 확인 (TCP 통신 점검)

08
ECS완료2025.04.12

ECS 외부 통신 점검

ECS task 활성화 → GA 도메인 포트별 통신 및 Public LB target group 확인

테스트 방법

1. ECS service task 활성화 → GA 가동 후 도메인별 포트 통신 확인 2. Public LB target group healthy 확인 (TCP 통신 점검)

외부 통신 확인

GCP, Proxy 등 외부 연동 통신 테스트

0/2 완료
01
GCP시작 전

GCP → 내부 통신 확인

Agent → Private LB → HUB 접근 통신 확인 (VPN 연결 상태에서)

테스트 방법

VPN 연결 맺은 상태에서 Agent → Private LB 통해 HUB 접근 확인

피드백

4월 PM 때 HUB로 바로 가도록 변경됨

02
Proxy시작 전

Proxy 통신 확인

외부 고객사 → Proxy → Sterling 통신 확인

테스트 방법

외부 고객사 → Proxy → Sterling 경로 통신 테스트

성능 측정

데이터 복구 소요 시간 측정

0/1 완료
01
EFS시작 전

AWS DataSync EFS 데이터 복구 소요 시간 측정

EFS 데이터 복구 시간 확인

테스트 방법

0.1 TiB 복제 처리 기준 약 1~2시간 내 완료 예상 104,448 MB ÷ 20 MB/s ≈ 약 87분

서비스 점검

DR 감지 서비스 및 EBS 복구 테스트

0/2 완료
01
서비스시작 전

DR 상황 감지 서비스 테스트

DR 감지 서비스 정상 동작 확인

테스트 방법

DR 감지 점수표 기반 서비스 동작 테스트

02
EBS시작 전

EBS 데이터 복구 테스트

EBS 스냅샷 기반 데이터 복구 정상 동작 확인

테스트 방법

최신 스냅샷 기반 EBS 생성 → 인스턴스 연결 → 데이터 무결성 확인

모니터링 & 지표서비스 설정 & 운영