08 / 09
혼란 테스트 & DR 훈련
AWS Fault Injection Simulator, Chaos Engineering 원칙, 혼란 테스트 자동화 스크립트, DR 훈련
25
전체 테스트
16
완료
0
진행 중
9
시작 전
테스트 진행률
64%
Cross-Region Replication 테스트
EBS, S3, ECR, EFS 교차 리전 복제 검증
DLM 통한 EBS 리전 간 복제 활성화
EBS Cross-Region Replication 정상 동작 확인
테스트 방법
DLM 교차 리전 복제 활성화 후 스냅샷 2개씩 저장되는지 확인
Secondary Region 인스턴스에 최신 snapshot 기반 EBS 연결 자동화
Lambda 기반 EBS 자동 연결 파이프라인 검증
테스트 방법
1. Lambda 함수 생성 및 IAM 권한 설정 2. Lambda 실행 — 최신 복제 스냅샷 조회 → EBS 생성 → EC2 attach 3. 중지된 EC2 실행 시 자동 mount 확인 4. EventBridge로 하루 1회 Lambda 수행 설정
S3 CRR 활성화 후 Object 업데이트 복제 확인
S3 Cross-Region Replication 정상 동작 확인
테스트 방법
CRR 설정 후 Bucket에 object 업데이트하여 복제 확인
피드백
CRR 설정 시 추가 복제 옵션 확인 필요
ECR CRR 활성화
ECR 이미지 교차 리전 복제 및 배포 확인
테스트 방법
CRR 설정 적용 확인 + 최신화된 ECR 기반 배포 정상 동작 확인
EFS 리전 간 복제 활성화
EFS Cross-Region Replication 정상 동작 확인
테스트 방법
mount target 설정, DNS 해석 활성화, 보안 그룹 설정, 복제 활성화 후 더미 파일로 복제 확인
EFS 복제본 장애 조치 활성화
EFS Replication 복제 설정 삭제 → 대상 EFS 쓰기 방지 해제 스크립트 검증
테스트 방법
EFS Replication 연결 해제 스크립트 테스트
EFS CRR 성능 측정
Secondary → Primary EFS 연결 해제 소요 시간 측정 (1.5 TiB 기준)
테스트 방법
수백 GiB ~ 수 TiB의 경우 보통 5~15분, 간혹 30분 이상 소요. EFS Replication 연결이 끊어져야 Secondary Region에서 EFS 쓰기 가능
데이터 복구 테스트
DataSync 기반 EFS 데이터 복구 검증
EFS Secondary → Primary 데이터 복구 (DataSync)
DataSync를 통한 EFS 데이터 복구 검증
테스트 방법
1. 태스크 정의 — 변경된 데이터만 적용, 대상 EFS 파일 삭제 방지 설정 2. 기본값으로 시작 3. 변경된 파일만 전송되는지 확인 4. 기존 파일 삭제되지 않았는지 확인
트래픽 전환 스크립트 테스트
EC2, ECS, Global Accelerator 전환 스크립트 검증
EC2 활성화 및 최신 EBS mount 확인
EC2 시작 시 최신 EBS 자동 mount 정상 동작 확인
테스트 방법
EC2 start → 최신 snapshot 기반 EBS mount 확인
서버 내 APP 실행 상태 만들기
인스턴스 시작 시 App 자동/수동 재시작 확인
테스트 방법
수동: start.sh 스크립트 또는 jar 파일 실행 자동: systemd 서비스 등록
Secondary Region ECS Fargate 활성화
ECS Fargate 서비스 업데이트 및 배포 완료 확인
테스트 방법
1. 현재 서비스 상태 확인 2. ECS Fargate 서비스 업데이트 3. runningCount == desiredCount 대기 4. 10초 단위 최대 10분(60회) 상태 체크
Global Accelerator 트래픽 전환
GA 스크립트 기반 빠른 트래픽 전환 및 로그 기록 확인
테스트 방법
1. GA 테스트 환경 구성 (Seoul/Secondary 각각 자원 생성) 2. 스크립트 이용한 트래픽 전환 3. 전환에 따른 관련 로그 기록 확인
Health Check 스크립트 테스트
EC2, ECS, GA, LB 상태 점검 스크립트 검증
EC2 APP & DB — LB Target Group 점검
포트 리스너 및 대상 그룹 트래픽 전달 확인
테스트 방법
1. 해당 포트로 리스너가 제대로 붙어 있는지 확인 2. 대상 그룹에 트래픽이 잘 전달되는지 확인
EC2 Internal Health Check (원격 점검)
로컬에서 원격으로 EC2 내부 상태 점검 및 로그 수집
테스트 방법
스크립트 연계로 EC2 내부 상태를 로컬에서 원격 점검 → 로그 파일 수집 netstat -tuln 명령어로 특정 포트 열림 확인
EC2 DB — MariaDB 상태 확인 (원격)
원격 접속 후 MariaDB 상태 및 쿼리 응답 확인
테스트 방법
1. SQL 쿼리 실행 via Socket (실제 연결 + 쿼리 응답 확인) 2. pgrep -u mariadba mariadbd DEV DB는 DEV Server 경유 접속 → 테스트 단계에서는 DB 서버 내 로그 확인
ECS APP Health Check
ECS 애플리케이션 레벨 상태 점검
테스트 방법
Task Definition healthCheck 기반 HTTP 상태 검사
ECS DB Health Check
ECS DB 연결 상태 점검
테스트 방법
ECS 컨테이너 내 DB 연결 및 응답 확인
Global Accelerator 트래픽 전환 상태 점검
GA 고정 IP를 통한 통신 정상 확인
테스트 방법
스크립트 이용한 GA 연결 포트 health check 포트별 요청 → 기대 응답 확인 (GA IP:8090/hello, GA IP:35443/hello)
피드백
실제 Secondary Region DR 서버에서도 특정 포트에 hello check app 띄워서 확인 권장
EC2 외부 통신 점검
EC2 → GA 가동 후 도메인별 포트 접속 및 Public LB target group 확인
테스트 방법
1. EC2 인스턴스 실행 → GA 가동 후 도메인별 포트 접속 확인 2. Public LB target group healthy 확인 (TCP 통신 점검)
ECS 외부 통신 점검
ECS task 활성화 → GA 도메인 포트별 통신 및 Public LB target group 확인
테스트 방법
1. ECS service task 활성화 → GA 가동 후 도메인별 포트 통신 확인 2. Public LB target group healthy 확인 (TCP 통신 점검)
외부 통신 확인
GCP, Proxy 등 외부 연동 통신 테스트
GCP → 내부 통신 확인
Agent → Private LB → HUB 접근 통신 확인 (VPN 연결 상태에서)
테스트 방법
VPN 연결 맺은 상태에서 Agent → Private LB 통해 HUB 접근 확인
피드백
4월 PM 때 HUB로 바로 가도록 변경됨
Proxy 통신 확인
외부 고객사 → Proxy → Sterling 통신 확인
테스트 방법
외부 고객사 → Proxy → Sterling 경로 통신 테스트
성능 측정
데이터 복구 소요 시간 측정
AWS DataSync EFS 데이터 복구 소요 시간 측정
EFS 데이터 복구 시간 확인
테스트 방법
0.1 TiB 복제 처리 기준 약 1~2시간 내 완료 예상 104,448 MB ÷ 20 MB/s ≈ 약 87분
서비스 점검
DR 감지 서비스 및 EBS 복구 테스트
DR 상황 감지 서비스 테스트
DR 감지 서비스 정상 동작 확인
테스트 방법
DR 감지 점수표 기반 서비스 동작 테스트
EBS 데이터 복구 테스트
EBS 스냅샷 기반 데이터 복구 정상 동작 확인
테스트 방법
최신 스냅샷 기반 EBS 생성 → 인스턴스 연결 → 데이터 무결성 확인