07 / 09
모니터링 & 지표
DR 감지 지표, DR 성능 지표/자원 모니터링, 소프트웨어 누실 확인, DB 손실 범위 파악
DR 감지 원칙
단일 서비스 장애만으로는 DR 선언하지 않습니다. DR 선언 판단은 단일 지표가 아니라 복수 지표의 조합에 따른 종합 평가로 이루어져야 합니다.
11
감시 지표
3
평가 항목 (지속성/영향/비즈니스)
슬라이딩 윈도우
종합 판단 모델
감시 지표 정의
DR 상황 감지를 위한 모니터링 지표 목록
서버 포트 다운
핵심 인프라 연결 실패 시 서비스 중단. 애플리케이션 레벨 및 포트 레벨 체크
- •서버는 살아있지만 앱 비정상, 방화벽, 보안 그룹, 네트워크 경로, 애플리케이션 Crash 등에서도 발생
- •서버 포트 다운은 개별 인스턴스 이슈일 수 있고, 서버 자체가 응답하지 않는 경우엔 포트 체크도 실패
StatusCheckFailed
하드웨어/네트워크 장애로 인스턴스 불능 가능성
- •현재 해당 지표에 대해 Call/SMS 알람 설정 완료
RunningTaskCount = 0
ECS 기반 서비스 중단 위험
UnHealthyHostCount ≥ 1
LB 기능 장애 발생. 다수 서버 다운 시 요청 거부
ProcessedBytes 급감
ELB 트래픽 감소로 전체 서비스 영향 가능
RejectedFlowCount 급증
백엔드 서버 과부하 또는 장애 문제
PercentIOLimit > 80% / ClientConnections = 0
EFS 성능 과부하 또는 클라이언트 연결 수 0 지속
- •PercentIOLimit — EFS I/O 제한 도달 비율 (80% 초과 시 경고)
- •ClientConnections — 정상 연결이 있어야 하는 상황에서 0 지속 시 이상
CustomAppHealth /health 실패
GA 동작 확인 및 ECS application level health check
- •GA 고정 IP를 통한 health check app 기반 확인
5xx 오류율 ≥ 10%
파일 접근 실패로 전체 기능 영향 가능
VolumeQueueLength ≥ 10
완료 대기 중인 I/O 요청 수 과다
IOPS 평균 사용량 = 0
EBS 볼륨에 대한 I/O 작업이 실패하거나 처리되지 않는 상황
DR 감지 평가 기록
지표별 지속성 / 영향 범위 / 비즈니스 영향도 점수 기록
DR 선언 종합 판단 결과
슬라이딩 윈도우 + 중복 감점 및 상호보완 적용 모델
윈도우 시작
2025-04-29 14:10:00
윈도우 종료
2025-04-29 14:15:00
지표 수
6
최종 점수
37
판단 결과
즉시 DR 진입
AWS DRS 참조 지표
AWS Disaster Recovery Service(DRS) CloudWatch 지표를 참고하여 직접 구성
AWS 관리형 서비스인 DRS에서 제공하는 지표들은 복제가 잘 이루어지고 있는지 확인하는 용도이며, Disaster 발생을 감지하는 지표는 아닙니다. DRS를 사용하지 않고 직접 구축하므로 모니터링도 DRS를 참고하여 직접 구성해야 합니다.
TotalSourceServerCount
소스 서버 수
확인 방법: 복제 대상 서버 수 추적
LagDuration
복제 지연 시간 (초)
확인 방법: 가장 최근 스냅샷과 현재 시간의 차이 측정
Backlog
아직 복제되지 않은 데이터 (바이트)
확인 방법: EBS 스냅샷 증가량 추적 또는 커스텀 지표 구성
DurationSinceLastSuccessfulRecoveryLaunch
마지막 복구 시도 이후 경과 시간 (초)
확인 방법: 마지막 Drill 또는 Recovery 인스턴스 실행 이후 경과 시간 추적
ElapsedReplicationDuration
누적 복제 시간 (초)
확인 방법: 서버가 복제를 시작한 이후 누적 시간 추적
DR 관련 자원 모니터링
평상시 DR 준비 상태 점검 및 보고서 참고용 모니터링
DR 테스트를 연 몇 회 진행하더라도 평상시에 관련 자원 모니터링이 필요합니다. DR 보고서 제출 시 참고 자료로 활용됩니다.
리스너 상태 점검
GA 리스너 상태 및 연결 정상 여부 주기적 확인
S3 Cross-Region Replication 모니터링
CRR 활성화 시 RTC(Replication Time Control) 옵션 필수 활성화
CloudWatch 지표
BytesReplicatedToDestination → 복제 완료된 총 바이트 수
EBS Replication 및 최신 볼륨 업데이트
CloudTrail로 스냅샷/볼륨 관련 이벤트 확인
CloudTrail 이벤트
CreateSnapshot / CreateVolume / AttachVolume / DetachVolume / DeleteVolume
AWS CLI 예시
aws cloudtrail lookup-events \ --lookup-attributes AttributeKey=EventName,AttributeValue=CreateSnapshot \ --max-results 5 \ --region ap-northeast-2 \ --query "Events[*].[EventTime,Username,Resources]" \ --output table
ECR Replication 상태 확인
AWS CLI로 복제 상태 확인 — COMPLETE / FAILED / IN_PROGRESS
AWS CLI 예시
aws ecr describe-image-replication-status \ --repository-name my-repo \ --image-ids imageTag=my-tag \ --region <소스 리전>
응답 예시
{
"replicationStatus": [
{ "region": "ap-northeast-2", "status": "COMPLETE" },
{ "region": "us-west-2", "status": "IN_PROGRESS" }
]
}