← Disaster Recovery
📊

07 / 09

모니터링 & 지표

DR 감지 지표, DR 성능 지표/자원 모니터링, 소프트웨어 누실 확인, DB 손실 범위 파악

MonitoringMetricsDBDetection
개요 & 정의인프라 & IaC리소스 사전 생성네트워크 & 트래픽장애 전환 (Failover)복구 (Failback)모니터링 & 지표혼란 테스트 & DR 훈련서비스 설정 & 운영

DR 감지 원칙

단일 서비스 장애만으로는 DR 선언하지 않습니다. DR 선언 판단은 단일 지표가 아니라 복수 지표의 조합에 따른 종합 평가로 이루어져야 합니다.

11

감시 지표

3

평가 항목 (지속성/영향/비즈니스)

슬라이딩 윈도우

종합 판단 모델

감시 지표 정의

DR 상황 감지를 위한 모니터링 지표 목록

M01
서버 내 확인

서버 포트 다운

핵심 인프라 연결 실패 시 서비스 중단. 애플리케이션 레벨 및 포트 레벨 체크

운영 서버 (PRD)DB 서버API Gateway 서버
  • 서버는 살아있지만 앱 비정상, 방화벽, 보안 그룹, 네트워크 경로, 애플리케이션 Crash 등에서도 발생
  • 서버 포트 다운은 개별 인스턴스 이슈일 수 있고, 서버 자체가 응답하지 않는 경우엔 포트 체크도 실패
M02
EC2 인스턴스 상태

StatusCheckFailed

하드웨어/네트워크 장애로 인스턴스 불능 가능성

운영 서버 (PRD)DB 서버API Gateway 서버
  • 현재 해당 지표에 대해 Call/SMS 알람 설정 완료
M03
ECS 서비스 상태

RunningTaskCount = 0

ECS 기반 서비스 중단 위험

Batch ServiceWeverse ServiceGSI Service (x2)NGEC Service (x3)NGFF Service
M04
ELB 상태

UnHealthyHostCount ≥ 1

LB 기능 장애 발생. 다수 서버 다운 시 요청 거부

Public LB Target GroupsInternal LB Target Groups
M05
ELB 트래픽

ProcessedBytes 급감

ELB 트래픽 감소로 전체 서비스 영향 가능

Public LBInternal LB
M06
ELB 연결 거부

RejectedFlowCount 급증

백엔드 서버 과부하 또는 장애 문제

Public LBInternal LB
M08
EFS 성능 / 연결

PercentIOLimit > 80% / ClientConnections = 0

EFS 성능 과부하 또는 클라이언트 연결 수 0 지속

EFS 파일 시스템
  • PercentIOLimit — EFS I/O 제한 도달 비율 (80% 초과 시 경고)
  • ClientConnections — 정상 연결이 있어야 하는 상황에서 0 지속 시 이상
M09
APP Health Check

CustomAppHealth /health 실패

GA 동작 확인 및 ECS application level health check

EC2 외부 통신 (GA 도메인:포트/hello)ECS 외부 통신 (GA 도메인:5006/rest/ping)ECS Application Level
  • GA 고정 IP를 통한 health check app 기반 확인
M10
S3 접근성

5xx 오류율 ≥ 10%

파일 접근 실패로 전체 기능 영향 가능

S3 Bucket
M11
EBS I/O 대기

VolumeQueueLength ≥ 10

완료 대기 중인 I/O 요청 수 과다

운영 SW 볼륨 (100 GB)DB 볼륨 1 (900 GB)DB 볼륨 2 (200 GB)
M12
EBS I/O 작업

IOPS 평균 사용량 = 0

EBS 볼륨에 대한 I/O 작업이 실패하거나 처리되지 않는 상황

운영 SW 볼륨 (100 GB)DB 볼륨 1 (900 GB)DB 볼륨 2 (200 GB)

DR 감지 평가 기록

지표별 지속성 / 영향 범위 / 비즈니스 영향도 점수 기록

평가 시각지표 ID지속성영향 범위비즈니스총점비고
2025-04-29 14:05M0233410ECS 전체 다운
2025-04-29 14:06M032237Target group 비정상
2025-04-29 14:08M040022

DR 선언 종합 판단 결과

슬라이딩 윈도우 + 중복 감점 및 상호보완 적용 모델

윈도우 시작

2025-04-29 14:10:00

윈도우 종료

2025-04-29 14:15:00

지표 수

6

최종 점수

37

판단 결과

즉시 DR 진입

AWS DRS 참조 지표

AWS Disaster Recovery Service(DRS) CloudWatch 지표를 참고하여 직접 구성

AWS 관리형 서비스인 DRS에서 제공하는 지표들은 복제가 잘 이루어지고 있는지 확인하는 용도이며, Disaster 발생을 감지하는 지표는 아닙니다. DRS를 사용하지 않고 직접 구축하므로 모니터링도 DRS를 참고하여 직접 구성해야 합니다.

1

TotalSourceServerCount

소스 서버 수

확인 방법: 복제 대상 서버 수 추적

2

LagDuration

복제 지연 시간 (초)

확인 방법: 가장 최근 스냅샷과 현재 시간의 차이 측정

3

Backlog

아직 복제되지 않은 데이터 (바이트)

확인 방법: EBS 스냅샷 증가량 추적 또는 커스텀 지표 구성

4

DurationSinceLastSuccessfulRecoveryLaunch

마지막 복구 시도 이후 경과 시간 (초)

확인 방법: 마지막 Drill 또는 Recovery 인스턴스 실행 이후 경과 시간 추적

5

ElapsedReplicationDuration

누적 복제 시간 (초)

확인 방법: 서버가 복제를 시작한 이후 누적 시간 추적

DR 관련 자원 모니터링

평상시 DR 준비 상태 점검 및 보고서 참고용 모니터링

DR 테스트를 연 몇 회 진행하더라도 평상시에 관련 자원 모니터링이 필요합니다. DR 보고서 제출 시 참고 자료로 활용됩니다.

Global Accelerator

리스너 상태 점검

GA 리스너 상태 및 연결 정상 여부 주기적 확인

S3 CRR

S3 Cross-Region Replication 모니터링

CRR 활성화 시 RTC(Replication Time Control) 옵션 필수 활성화

CloudWatch 지표

BytesReplicatedToDestination → 복제 완료된 총 바이트 수

EBS Replication

EBS Replication 및 최신 볼륨 업데이트

CloudTrail로 스냅샷/볼륨 관련 이벤트 확인

CloudTrail 이벤트

CreateSnapshot / CreateVolume / AttachVolume / DetachVolume / DeleteVolume

AWS CLI 예시

aws cloudtrail lookup-events \
  --lookup-attributes AttributeKey=EventName,AttributeValue=CreateSnapshot \
  --max-results 5 \
  --region ap-northeast-2 \
  --query "Events[*].[EventTime,Username,Resources]" \
  --output table
ECR Replication

ECR Replication 상태 확인

AWS CLI로 복제 상태 확인 — COMPLETE / FAILED / IN_PROGRESS

AWS CLI 예시

aws ecr describe-image-replication-status \
  --repository-name my-repo \
  --image-ids imageTag=my-tag \
  --region <소스 리전>

응답 예시

{
  "replicationStatus": [
    { "region": "ap-northeast-2", "status": "COMPLETE" },
    { "region": "us-west-2", "status": "IN_PROGRESS" }
  ]
}
복구 (Failback)혼란 테스트 & DR 훈련