← Disaster Recovery
⚙️

03 / 09

리소스 사전 생성

IAM, EBS, EFS, S3, ECR, NLB, NAT Gateway, API Gateway, SSM 등 Secondary Region 리소스 사전 구성

IAMEBSS3ECRNLB
개요 & 정의인프라 & IaC리소스 사전 생성네트워크 & 트래픽장애 전환 (Failover)복구 (Failback)모니터링 & 지표혼란 테스트 & DR 훈련서비스 설정 & 운영

45

전체 항목

10

완료

8

진행 중

27

시작 전

전체 진행률

22%

완료진행시작 전

AWS 리소스 생성

Secondary Region에 필요한 AWS 리소스 사전 생성

1/14 완료1 진행
01
IAM완료

DR 용 IAM 관리

DR 작업 관련 IAM 권한 그룹 생성, DR 전용 IAM 계정 발급

02
네트워크진행

네트워크 및 SG 자원 생성

VPC, Subnet, ACL, 보안 그룹, 인터넷 게이트웨이 생성

03
서버시작 전

AMI Region 간 복제 후 서버 생성

리전 간 복제된 AMI로 인스턴스 생성, EBS 볼륨 자동 생성

  • EBS snapshot 주기적으로 불러와 신규 정보 업데이트
  • AMI 생성 시 EBS 스냅샷 포함 → 업무 시간 외 PM 작업 권장
04
스토리지시작 전

EBS 생성 및 연결

스냅샷 기반 EBS 볼륨 생성 및 인스턴스 연결

05
네트워크시작 전

VPN Connection

Site-to-Site VPN 연결 구성

06
네트워크시작 전

Global Accelerator 생성 및 설정

멀티 리전 단일 IP 접근을 위한 GA 구성

07
네트워크시작 전

NLB 및 관련 자원 생성

NLB별 리스너, 포트, 대상 정보(EC2/ECS) 생성 — 스크립트 기반

08
컨테이너시작 전

ECR + ECS + Fargate 환경 구축

Seoul Region과 동일 스펙의 ECS 리소스 생성

09
네트워크시작 전

NAT Gateway 생성

Private Subnet 외부 통신용 NAT Gateway

10
스토리지시작 전

EFS 생성

EFS 생성 (교차 리전 복제는 미적용)

11
스토리지시작 전

S3 생성

S3 버킷 생성

12
관리시작 전

SSM 설정

인스턴스 내부 접속을 위한 SSM Agent 설치 및 IAM 역할 부여

  • 대상 서버에 amazon-ssm-agent 설치
  • Seoul/Tokyo 인스턴스에 SSM IAM 역할 부여
  • Lambda 함수에 SSM IAM 역할 부여
  • DR 관련 계정에 IAM 역할 부여
13
서버시작 전

API Gateway 용 서버 생성

Secondary Region에 API Gateway 서버 구성

14
모니터링시작 전

CloudWatch 설정

Secondary Region CloudWatch 설정 및 DR 성능 지표 구성

Cross-Region Replication

EBS, S3, ECR 교차 리전 복제 설정

0/4 완료
01
EBS시작 전

EBS Snapshot Cross-Region Replication

DLM에서 교차 리전 복제 활성화, 보존 규칙 설정

02
EBS시작 전

최신 Snapshot 기반 EBS 생성

Secondary Region에서 최신 snapshot 기반 EBS 생성 및 인스턴스 연결

03
S3시작 전

S3 Cross-Region Replication

S3 버킷별 CRR 설정, RTC 활성화

  • CloudWatch에서 S3 Replication Metrics 제공
  • BytesReplicatedToDestination → 복제 완료된 총 바이트 수
04
ECR시작 전

ECR Cross-Region Replication

ECR Private Repository CRR 설정, :latest 태그 이미지 복제

환경 구성 점검

Secondary Region 환경 설정 및 연동 확인

0/8 완료
01
ECS시작 전

EFS 저장 설정 파일 처리

ECS EFS에 저장되는 파일을 Secondary Region에서 대체 저장소로 전환

02
ECS시작 전

ECS Service 변경 시 동기화

ECS Service/Task 재정의 시 Secondary Region에도 동일 반영 — AWS CLI에 region 옵션 추가

03
서버시작 전

HUB Config 설정 변경

Secondary Region PRD 서버의 config 파일 내 region, Proxy, S3, EFS 등 설정 변경

04
네트워크시작 전

VPN Agent IP 설정

Seoul Region VPN Agent IP → Secondary Region VPN Agent IP로 변경

  • ECS Config 파일 내 host 설정 변경
  • hub.host 설정 변경 (/etc/hosts)
05
S3시작 전

S3 DNS 등록

Secondary Region S3의 DNS를 HUB Config 및 연결된 서비스에 등록

06
API Gateway시작 전

API Gateway 연결 변경

ECS에서 API Gateway로 보내는 요청의 엔드포인트 수정

07
GA시작 전

Global Accelerator 리스너 점검

GA 리스너 상태 및 연결 확인

08
외부시작 전

외부 파트너 접근 제어 설정

GA 연결 도메인/포트 접근 허용 요청, outbound/inbound IP 전달

서버 내 리소스 설정

인스턴스 시작 시 App 자동/수동 재시작 설정

0/1 완료
01
서버시작 전

인스턴스 시작 시 App 자동/수동 재시작 설정

systemd 서비스 등록(자동) 및 start.sh 스크립트 준비(수동)

  • 자동: systemd 서비스 등록 (/etc/systemd/system/)
  • 수동: start.sh 스크립트 또는 jar 파일 정리 후 인스턴스 시작 시 실행

스크립트 작성

DR 전환 및 복구를 위한 자동화 스크립트

7/8 완료
01
스크립트시작 전

스크립트 실행 환경 설정

Lambda 또는 로컬 PowerShell 기반 스크립트 실행 환경 구성

02
DR 감지완료

DR 상황 감지 기능 구현

DR 감지 점수표 작성, DR 상황 감지 및 종료 프로세스 정립

03
스크립트완료

EC2 인스턴스 상태 변경

Secondary Region EC2 stop → start 스크립트

04
스크립트완료

최신 스냅샷 기반 EBS 생성 및 mount

인스턴스 start → 최신 스냅샷 조회 → EBS 생성 → mount → 자동 마운트 설정

05
스크립트완료

운영 서버 내부 app 활성화 (PRD)

사전 생성한 script 실행 및 자동 실행

06
스크립트완료

DB 서버 내부 app 활성화

DB 서버 app 활성화 스크립트 실행

07
스크립트완료

ECS Fargate task 활성화

Desired Task Count를 1 이상으로 설정하여 Fargate 컨테이너 기동

08
스크립트완료

Global Accelerator Region 활성화

GA Secondary Region 활성화 스크립트

Health Check 및 로그 저장

서비스 상태 점검 및 로그 기록 스크립트

2/10 완료7 진행
01
PRD 서버진행

PRD 서버 내부 점검

내부 APP 포트 확인 (HUB, Sterling, Proxy, TrackingApp, Kafka), 프로세스 점검, EBS/EFS mount 확인

02
DB 서버진행

DB 서버 내부 점검

내부 APP 포트 확인, DB 상태 및 통신 확인 (MariaDB, DB2), EBS/EFS mount 확인

  • SQL 쿼리 실행 via Socket (실제 연결 + 쿼리 응답 확인)
  • pgrep 통해 프로세스 확인
03
네트워크진행

서버 간 통신 점검

Private LB target group healthy 확인 (TCP 통신 점검)

  • LB target group health check 기준 조정 필요
  • IntervalSeconds, TimeoutSeconds, HealthThresholdCount 설정
04
ECS진행

ECS application level 상태 점검

Task Definition healthCheck 기반 HTTP 상태 검사 (Spring Actuator /actuator/health)

05
ECS진행

ECS NAT Gateway 트래픽 점검

ECS → NAT Gateway 외부 트래픽 동작 확인

  • CloudWatch NAT Gateway BytesOutToDestination 지표 확인
  • NAT 경유 API Endpoint 요청/응답 확인
06
API GW진행

API Gateway 트래픽 점검

API Gateway → ECS APP 트래픽 동작 확인

07
ECS진행

ECS ↔ Agent ↔ GCP DB 통신 확인

ECS APP → Agent → GCP DB 통신 경로 확인 (telnet, nc)

08
EC2완료

EC2 외부 통신 점검

GA 가동 후 도메인별 포트 접속 확인, Public LB target group healthy 확인

09
ECS완료

ECS 외부 통신 점검

ECS task 활성화 → GA 도메인 포트별 통신 확인, Public LB target group 확인

10
외부시작 전

외부 통신 점검 (Proxy)

외부 → GA IP → Proxy → Sterling 통신 확인 (HUB 경유 / 외부 고객사 경유)

인프라 & IaC네트워크 & 트래픽