Blog
개발 기록
NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정
NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.
ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석
AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정
NLB Target Group Unhealthy 원인 분석 및 해결 — Health Check 포트 불일치 문제
NLB에 연결된 타겟 그룹이 Unhealthy 상태인 원인을 보안 그룹과 Health Check 포트 설정에서 찾아 해결한 트러블슈팅 기록
EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한
EBS Provisioned IOPS를 올렸는데 CloudWatch에서 기대한 만큼 사용되지 않는 원인을 분석하고, EC2 인스턴스 유형별 I/O 제한과 Burst Credit 모델을 이해한 트러블슈팅 기록
ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅
ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록
ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계
ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록
NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정
NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.
ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석
AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정
S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단
S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드
S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사
S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서
S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화
S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드
EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호
EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.
NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정
NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.
NLB Target Group Unhealthy 원인 분석 및 해결 — Health Check 포트 불일치 문제
NLB에 연결된 타겟 그룹이 Unhealthy 상태인 원인을 보안 그룹과 Health Check 포트 설정에서 찾아 해결한 트러블슈팅 기록
NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정
NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.
AWS CloudTrail + Athena 감사 로그 분석 환경 구축
CloudTrail로 모든 API 호출을 S3에 영구 저장하고, Athena로 SQL 쿼리하여 보안 감사 및 변경 이력을 추적하는 분석 환경 구축. S3 데이터 이벤트(Presigned URL + ECS Task Role)와 SES 이메일 발송 이력 추적까지 확장.
NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정
NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.
ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅
ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록
ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계
ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록
EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응
t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록
AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)
SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정
AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축
AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정
ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석
AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정
ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅
ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록
ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계
ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록
ECS Fargate OOM 방지: 메모리 설정 최적화
ECS Fargate 태스크가 OOM(Out of Memory)으로 반복 종료되는 문제를 분석하고, 메모리 설정 최적화로 해결한 과정을 정리합니다.
ECS Fargate 컨테이너 Health Check 기반 자동 재시작 구현
ECS에서 컨테이너는 Running인데 내부 앱이 죽는 문제를 Task Definition Health Check로 해결하고, 장애 시 자동 재시작을 구현하는 방법
SNS + Lambda 기반 Slack 알림 구축 — ECS Task 장애 실시간 알림
CloudWatch Alarm → SNS → Lambda → Slack Webhook 파이프라인으로 ECS Task 장애를 Slack 채널에 실시간 알림하는 구조 구축
S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단
S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드
S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사
S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서
S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화
S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드
AWS CloudTrail + Athena 감사 로그 분석 환경 구축
CloudTrail로 모든 API 호출을 S3에 영구 저장하고, Athena로 SQL 쿼리하여 보안 감사 및 변경 이력을 추적하는 분석 환경 구축. S3 데이터 이벤트(Presigned URL + ECS Task Role)와 SES 이메일 발송 이력 추적까지 확장.
S3 버킷 접근 제어 및 Presigned URL 운영 전략
퍼블릭 액세스 차단 + IAM Role 기반 접근 제어, ECS/EC2/온프레미스 환경별 S3 권한 설계, STS 세션 만료 문제 해결을 위한 장기키 Presigned URL 전략
S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단
S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드
S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사
S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서
S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화
S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드
EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호
EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.
AWS CloudTrail + Athena 감사 로그 분석 환경 구축
CloudTrail로 모든 API 호출을 S3에 영구 저장하고, Athena로 SQL 쿼리하여 보안 감사 및 변경 이력을 추적하는 분석 환경 구축. S3 데이터 이벤트(Presigned URL + ECS Task Role)와 SES 이메일 발송 이력 추적까지 확장.
Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게
AWS Access Key의 보안 위험성과 IAM Role(STS 임시 자격증명) 기반 인증으로의 전환 전략. ECS Task Role, EC2 Instance Profile, Lambda Execution Role 등 환경별 적용 사례와 예외 케이스 정리.
S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단
S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드
S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화
S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드
EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호
EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.
AWS 인프라 관리에 Kiro를 쓰는 이유
GPT, Claude, Cursor 대신 Kiro를 선택한 이유와 실무에서 느낀 차이점
Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게
AWS Access Key의 보안 위험성과 IAM Role(STS 임시 자격증명) 기반 인증으로의 전환 전략. ECS Task Role, EC2 Instance Profile, Lambda Execution Role 등 환경별 적용 사례와 예외 케이스 정리.
물리 서버 RAID 구성 및 Rocky Linux 기반 테스트 서버 세팅 — MegaRAID + RAID 1/5 이중 구성
Broadcom MegaRAID SAS-3 3108 컨트롤러로 RAID 1 + RAID 5 이중 구성을 설계하고, Rocky Linux 기반 테스트/백업 서버를 구축한 과정 기록
S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사
S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서
Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게
AWS Access Key의 보안 위험성과 IAM Role(STS 임시 자격증명) 기반 인증으로의 전환 전략. ECS Task Role, EC2 Instance Profile, Lambda Execution Role 등 환경별 적용 사례와 예외 케이스 정리.
EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호
EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.
EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한
EBS Provisioned IOPS를 올렸는데 CloudWatch에서 기대한 만큼 사용되지 않는 원인을 분석하고, EC2 인스턴스 유형별 I/O 제한과 Burst Credit 모델을 이해한 트러블슈팅 기록
EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응
t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록
AWS CloudTrail + Athena 감사 로그 분석 환경 구축
CloudTrail로 모든 API 호출을 S3에 영구 저장하고, Athena로 SQL 쿼리하여 보안 감사 및 변경 이력을 추적하는 분석 환경 구축. S3 데이터 이벤트(Presigned URL + ECS Task Role)와 SES 이메일 발송 이력 추적까지 확장.
Amazon SES 기반 이메일 알림 인프라 구축 — 프로덕션 발송 체계와 Lambda 연동
SES 프로덕션 액세스 활성화, 도메인/이메일 Identity 인증, SMTP User 관리, Lambda 함수 연동까지 운영 환경의 이메일 알림 인프라 전체 구성
물리 서버 RAID 구성 및 Rocky Linux 기반 테스트 서버 세팅 — MegaRAID + RAID 1/5 이중 구성
Broadcom MegaRAID SAS-3 3108 컨트롤러로 RAID 1 + RAID 5 이중 구성을 설계하고, Rocky Linux 기반 테스트/백업 서버를 구축한 과정 기록
물리 서버(113.11) 대역폭 충돌 문제 해결
사내 물리 서버에서 발생한 네트워크 대역폭 충돌 문제를 분석하고, 서브넷 분리와 트래픽 제어로 해결한 과정을 정리합니다.
물리 서버 RAID 구성 및 Rocky Linux 기반 테스트 서버 세팅 — MegaRAID + RAID 1/5 이중 구성
Broadcom MegaRAID SAS-3 3108 컨트롤러로 RAID 1 + RAID 5 이중 구성을 설계하고, Rocky Linux 기반 테스트/백업 서버를 구축한 과정 기록
ECS Fargate 환경 JVM 모니터링 고도화 (Prometheus + Grafana)
CloudWatch만으로는 보이지 않는 JVM 내부 상태를 Prometheus + Grafana + ecs-discovery로 실시간 추적하는 모니터링 체계 구축
ECS Fargate 컨테이너 Health Check 기반 자동 재시작 구현
ECS에서 컨테이너는 Running인데 내부 앱이 죽는 문제를 Task Definition Health Check로 해결하고, 장애 시 자동 재시작을 구현하는 방법
Docker 네트워크가 사내 네트워크를 망가뜨렸던 날: 트러블슈팅 여정
서버 재부팅 후 발생한 네트워크 장애, 원인은 Docker bridge 네트워크와 사내 서브넷 충돌이었습니다.
ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계
ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록
EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응
t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록
DB 서버 메모리 부족 + Swap 사용 — MariaDB 세션 누적 원인 분석
DB 서버 메모리가 지속적으로 차오르고 Swap까지 사용하는 현상의 원인을 MariaDB 세션 수와 HikariCP 커넥션 풀 설정에서 찾아 분석한 트러블슈팅 기록
EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응
t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록
DB 서버 메모리 부족 + Swap 사용 — MariaDB 세션 누적 원인 분석
DB 서버 메모리가 지속적으로 차오르고 Swap까지 사용하는 현상의 원인을 MariaDB 세션 수와 HikariCP 커넥션 풀 설정에서 찾아 분석한 트러블슈팅 기록
Replica SQL 적용 밀릴 때 — 병렬 복제 워커 큐 꽉 찬 문제 해결
MariaDB Replica에서 Slave_SQL_Running_State: Waiting for room in worker thread event queue 에러가 발생하며 복제 지연이 생긴 원인을 분석하고, 워커 큐 및 병렬 쓰레드 튜닝으로 해결한 기록
PRD DB MariaDB 11.4 버전업 - 운영 환경 적용 과정
운영(PRD) 환경에서 MariaDB 10.5를 11.4로 버전업한 실제 적용 과정과 주의사항 정리
DEV DB MariaDB 11.4 마이그레이션 실적용 기록
개발 환경 DB를 MariaDB 10.5에서 11.4로 마이그레이션한 실제 적용 과정 정리
MariaDB 10.5에서 11.4 버전업 및 Replication 구성기
운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리
MariaDB 이중화 테스트 - Replication 검증 과정 기록
MariaDB Master-Replica 이중화를 운영에 적용하기 전 테스트 환경에서 진행한 검증 과정 정리
Replica SQL 적용 밀릴 때 — 병렬 복제 워커 큐 꽉 찬 문제 해결
MariaDB Replica에서 Slave_SQL_Running_State: Waiting for room in worker thread event queue 에러가 발생하며 복제 지연이 생긴 원인을 분석하고, 워커 큐 및 병렬 쓰레드 튜닝으로 해결한 기록
MariaDB 10.5에서 11.4 버전업 및 Replication 구성기
운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리
MariaDB 이중화 테스트 - Replication 검증 과정 기록
MariaDB Master-Replica 이중화를 운영에 적용하기 전 테스트 환경에서 진행한 검증 과정 정리
Replica SQL 적용 밀릴 때 — 병렬 복제 워커 큐 꽉 찬 문제 해결
MariaDB Replica에서 Slave_SQL_Running_State: Waiting for room in worker thread event queue 에러가 발생하며 복제 지연이 생긴 원인을 분석하고, 워커 큐 및 병렬 쓰레드 튜닝으로 해결한 기록
PRD DB MariaDB 11.4 버전업 - 운영 환경 적용 과정
운영(PRD) 환경에서 MariaDB 10.5를 11.4로 버전업한 실제 적용 과정과 주의사항 정리
DEV DB MariaDB 11.4 마이그레이션 실적용 기록
개발 환경 DB를 MariaDB 10.5에서 11.4로 마이그레이션한 실제 적용 과정 정리
MariaDB 10.5에서 11.4 버전업 및 Replication 구성기
운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리
MariaDB 이중화 테스트 - Replication 검증 과정 기록
MariaDB Master-Replica 이중화를 운영에 적용하기 전 테스트 환경에서 진행한 검증 과정 정리
PRD DB MariaDB 11.4 버전업 - 운영 환경 적용 과정
운영(PRD) 환경에서 MariaDB 10.5를 11.4로 버전업한 실제 적용 과정과 주의사항 정리
DEV DB MariaDB 11.4 마이그레이션 실적용 기록
개발 환경 DB를 MariaDB 10.5에서 11.4로 마이그레이션한 실제 적용 과정 정리
MariaDB 10.5에서 11.4 버전업 및 Replication 구성기
운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리
AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)
SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정
AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축
AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정
AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)
SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정
SNS SMS 크로스 리전 구성 — Seoul에서 Tokyo 경유 문자 알림 발송
Seoul 리전의 SMS 미지원 제약을 Tokyo 리전 경유로 해결. CloudWatch Alarm → SNS → Lambda → Tokyo SNS → SMS 파이프라인 구축과 Sandbox 환경 운영 노하우
AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)
SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정
SNS + Lambda 기반 Slack 알림 구축 — ECS Task 장애 실시간 알림
CloudWatch Alarm → SNS → Lambda → Slack Webhook 파이프라인으로 ECS Task 장애를 Slack 채널에 실시간 알림하는 구조 구축
AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축
AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정
ECS Task STOPPED 상태 감지 및 Slack 알람 구축
ECS 서비스의 RunningTaskCount가 0이 되는 장애 상황을 CloudWatch + SNS + Lambda로 감지하고 Slack으로 즉시 알림하는 모니터링 구축
EC2 StatusCheckFailed 기반 장애 감지 및 자동 복구 알람 시스템
EC2 인스턴스의 StatusCheckFailed 지표를 활용한 장애 자동 감지, Auto Recovery 실행, 다중 채널(전화/SMS/이메일) 알람 아키텍처 구축
CloudWatch 알람 기반 EC2/ECS 통합 모니터링 구축
EC2 인스턴스와 ECS 서비스 전반에 걸친 CloudWatch 알람 체계 설계 및 구축. 이메일/문자/전화/Slack 다중 알림 채널 운영.
AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축
AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정
SNS + Lambda 기반 Slack 알림 구축 — ECS Task 장애 실시간 알림
CloudWatch Alarm → SNS → Lambda → Slack Webhook 파이프라인으로 ECS Task 장애를 Slack 채널에 실시간 알림하는 구조 구축
SNS SMS 크로스 리전 구성 — Seoul에서 Tokyo 경유 문자 알림 발송
Seoul 리전의 SMS 미지원 제약을 Tokyo 리전 경유로 해결. CloudWatch Alarm → SNS → Lambda → Tokyo SNS → SMS 파이프라인 구축과 Sandbox 환경 운영 노하우
Document AI 성능 측정 체계 구축: OCR부터 MLflow까지
Document AI를 '모델 개발 중심 단계'에서 '측정 가능한 ML 시스템 단계'로 전환하기 위한 성능 측정 체계 구축 과정을 정리합니다.
PaddleOCR 도입기: Tesseract에서 PaddleOCR로의 전환
Tesseract OCR의 한국어 인식 한계를 극복하기 위해 PaddleOCR을 도입하고, OCR 교체 검증까지 완료한 과정을 정리합니다. Recognition 파인튜닝은 운영 환경을 고려하여 진행 예정입니다.
AI Document Processing Pipeline (OCR + LayoutLM)
인보이스 및 물류 문서에서 구조화된 데이터를 자동 추출하는 end-to-end AI 문서 처리 파이프라인 구축
Linux 서버에서 가상 환경 분리를 통한 Document AI 프로젝트 구성
Python 가상 환경을 활용해 Linux 서버 내에서 Document AI 프로젝트 환경을 독립적으로 구성한 과정 정리
Document AI 성능 측정 체계 구축: OCR부터 MLflow까지
Document AI를 '모델 개발 중심 단계'에서 '측정 가능한 ML 시스템 단계'로 전환하기 위한 성능 측정 체계 구축 과정을 정리합니다.
PaddleOCR 도입기: Tesseract에서 PaddleOCR로의 전환
Tesseract OCR의 한국어 인식 한계를 극복하기 위해 PaddleOCR을 도입하고, OCR 교체 검증까지 완료한 과정을 정리합니다. Recognition 파인튜닝은 운영 환경을 고려하여 진행 예정입니다.
AI Document Processing Pipeline (OCR + LayoutLM)
인보이스 및 물류 문서에서 구조화된 데이터를 자동 추출하는 end-to-end AI 문서 처리 파이프라인 구축
Linux 서버에서 가상 환경 분리를 통한 Document AI 프로젝트 구성
Python 가상 환경을 활용해 Linux 서버 내에서 Document AI 프로젝트 환경을 독립적으로 구성한 과정 정리
AWS SES Mail Manager를 활용한 메일 수신 자동화 파이프라인
SES Mail Manager로 특정 주소의 수신 메일을 S3에 저장하고, Lambda로 인증코드를 파싱하여 내부 API를 자동 호출하는 메일 수신 자동화 파이프라인 구축
Windows 서버 프로세스 원격 모니터링 (SSM + Lambda + DynamoDB)
AWS SSM을 활용해 Windows 서버의 Java 프로세스 실행 상태를 원격으로 확인하고, 연속 실패 시 Slack/SMS/Email 다중 알람을 발송하는 서버리스 모니터링 구축
AWS SES Mail Manager를 활용한 메일 수신 자동화 파이프라인
SES Mail Manager로 특정 주소의 수신 메일을 S3에 저장하고, Lambda로 인증코드를 파싱하여 내부 API를 자동 호출하는 메일 수신 자동화 파이프라인 구축
ECS Task STOPPED 상태 감지 및 Slack 알람 구축
ECS 서비스의 RunningTaskCount가 0이 되는 장애 상황을 CloudWatch + SNS + Lambda로 감지하고 Slack으로 즉시 알림하는 모니터링 구축
Windows 서버 프로세스 원격 모니터링 (SSM + Lambda + DynamoDB)
AWS SSM을 활용해 Windows 서버의 Java 프로세스 실행 상태를 원격으로 확인하고, 연속 실패 시 Slack/SMS/Email 다중 알람을 발송하는 서버리스 모니터링 구축
EC2 StatusCheckFailed 기반 장애 감지 및 자동 복구 알람 시스템
EC2 인스턴스의 StatusCheckFailed 지표를 활용한 장애 자동 감지, Auto Recovery 실행, 다중 채널(전화/SMS/이메일) 알람 아키텍처 구축
AWS Health Dashboard 모니터링 및 알림 자동화
AWS 내부 인프라 작업(ECS Task Patching Retirement 등)이 프로덕션에 미치는 영향을 사전에 감지하고 이메일 알림을 자동화하는 모니터링 구축
EDI Agent 중앙 모니터링 시스템 구축 (AgentMonitor)
다중 환경의 EDI Agent 동기화 상태를 중앙에서 모니터링하고, 이상 감지 시 알람 및 일일 리포트를 자동 발송하는 시스템 구축