Blog

개발 기록

Post Map
TagPost
Troubleshooting12
AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.

AWSNLBVPC Flow Logs
2026-04-09
AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey
2026-04-08
AWS

NLB Target Group Unhealthy 원인 분석 및 해결 — Health Check 포트 불일치 문제

NLB에 연결된 타겟 그룹이 Unhealthy 상태인 원인을 보안 그룹과 Health Check 포트 설정에서 찾아 해결한 트러블슈팅 기록

AWSELBNLB
2025-10-25
AWS

EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한

EBS Provisioned IOPS를 올렸는데 CloudWatch에서 기대한 만큼 사용되지 않는 원인을 분석하고, EC2 인스턴스 유형별 I/O 제한과 Burst Credit 모델을 이해한 트러블슈팅 기록

AWSEBSEC2
2025-10-15
AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate
2025-10-08
AWS

ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계

ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록

AWSECSTroubleshooting
2025-09-20
AWS34
AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.

AWSNLBVPC Flow Logs
2026-04-09
AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey
2026-04-08
AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사

S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서

AWSS3Security
2026-04-06
AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호

EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.

AWSSecurityEC2
2026-04-06
NLB2
VPC Flow Logs1
Athena2
Monitoring19
AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.

AWSNLBVPC Flow Logs
2026-04-09
AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate
2025-10-08
AWS

ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계

ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록

AWSECSTroubleshooting
2025-09-20
AWS

EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응

t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록

AWSEC2Troubleshooting
2025-09-01
AWS Connect

AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)

SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정

AWS ConnectSMSSlack
2025-07-01
AWS Connect

AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축

AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정

AWS ConnectCloudWatchLambda
2025-06-10
ElastiCache1
Valkey1
ECS6
AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey
2026-04-08
AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate
2025-10-08
AWS

ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계

ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록

AWSECSTroubleshooting
2025-09-20
AWS

ECS Fargate OOM 방지: 메모리 설정 최적화

ECS Fargate 태스크가 OOM(Out of Memory)으로 반복 종료되는 문제를 분석하고, 메모리 설정 최적화로 해결한 과정을 정리합니다.

AWSECSTroubleshooting
2025-01-07
AWS

ECS Fargate 컨테이너 Health Check 기반 자동 재시작 구현

ECS에서 컨테이너는 Running인데 내부 앱이 죽는 문제를 Task Definition Health Check로 해결하고, 장애 시 자동 재시작을 구현하는 방법

AWSDevOpsDocker
2024-11-22
AWS

SNS + Lambda 기반 Slack 알림 구축 — ECS Task 장애 실시간 알림

CloudWatch Alarm → SNS → Lambda → Slack Webhook 파이프라인으로 ECS Task 장애를 Slack 채널에 실시간 알림하는 구조 구축

AWSSlackLambda
2024-08-15
S35
AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사

S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서

AWSS3Security
2026-04-06
AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

AWS CloudTrail + Athena 감사 로그 분석 환경 구축

CloudTrail로 모든 API 호출을 S3에 영구 저장하고, Athena로 SQL 쿼리하여 보안 감사 및 변경 이력을 추적하는 분석 환경 구축. S3 데이터 이벤트(Presigned URL + ECS Task Role)와 SES 이메일 발송 이력 추적까지 확장.

AWSSecurityCloudTrail
2026-01-15
AWS

S3 버킷 접근 제어 및 Presigned URL 운영 전략

퍼블릭 액세스 차단 + IAM Role 기반 접근 제어, ECS/EC2/온프레미스 환경별 S3 권한 설계, STS 세션 만료 문제 해결을 위한 장기키 Presigned URL 전략

AWSSecurityDevOps
2025-02-17
Security10
AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사

S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서

AWSS3Security
2026-04-06
AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호

EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.

AWSSecurityEC2
2026-04-06
AWS

AWS CloudTrail + Athena 감사 로그 분석 환경 구축

CloudTrail로 모든 API 호출을 S3에 영구 저장하고, Athena로 SQL 쿼리하여 보안 감사 및 변경 이력을 추적하는 분석 환경 구축. S3 데이터 이벤트(Presigned URL + ECS Task Role)와 SES 이메일 발송 이력 추적까지 확장.

AWSSecurityCloudTrail
2026-01-15
AWS

Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게

AWS Access Key의 보안 위험성과 IAM Role(STS 임시 자격증명) 기반 인증으로의 전환 전략. ECS Task Role, EC2 Instance Profile, Lambda Execution Role 등 환경별 적용 사례와 예외 케이스 정리.

AWSSecurityIAM
2025-12-22
DevOps22
AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security
2026-04-06
AWS

EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호

EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.

AWSSecurityEC2
2026-04-06
DevOps

AWS 인프라 관리에 Kiro를 쓰는 이유

GPT, Claude, Cursor 대신 Kiro를 선택한 이유와 실무에서 느낀 차이점

DevOpsAWSKiro
2026-03-23
AWS

Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게

AWS Access Key의 보안 위험성과 IAM Role(STS 임시 자격증명) 기반 인증으로의 전환 전략. ECS Task Role, EC2 Instance Profile, Lambda Execution Role 등 환경별 적용 사례와 예외 케이스 정리.

AWSSecurityIAM
2025-12-22
Infrastructure

물리 서버 RAID 구성 및 Rocky Linux 기반 테스트 서버 세팅 — MegaRAID + RAID 1/5 이중 구성

Broadcom MegaRAID SAS-3 3108 컨트롤러로 RAID 1 + RAID 5 이중 구성을 설계하고, Rocky Linux 기반 테스트/백업 서버를 구축한 과정 기록

InfrastructureDevOpsDocker
2025-11-01
IAM2
EC23
Kiro1
CloudTrail1
SES2
Infrastructure2
Docker4
ELB1
Health Check1
EBS1
IOPS1
Performance1
Fargate1
EFS1
Java3
Memory2
MariaDB5
Replication3
Database5
Migration3
Production1
AWS Connect2
SMS2
Slack2
SpringBoot1
CloudWatch4
Lambda3
Outbound Call1
Testing1
AI4
MLOps1
Python8
AI

Document AI 성능 측정 체계 구축: OCR부터 MLflow까지

Document AI를 '모델 개발 중심 단계'에서 '측정 가능한 ML 시스템 단계'로 전환하기 위한 성능 측정 체계 구축 과정을 정리합니다.

AIMLOpsPython
2025-05-22
AI

PaddleOCR 도입기: Tesseract에서 PaddleOCR로의 전환

Tesseract OCR의 한국어 인식 한계를 극복하기 위해 PaddleOCR을 도입하고, OCR 교체 검증까지 완료한 과정을 정리합니다. Recognition 파인튜닝은 운영 환경을 고려하여 진행 예정입니다.

AIOCRPython
2025-05-05
AI

AI Document Processing Pipeline (OCR + LayoutLM)

인보이스 및 물류 문서에서 구조화된 데이터를 자동 추출하는 end-to-end AI 문서 처리 파이프라인 구축

AIAWSDevOps
2025-04-18
AI

Linux 서버에서 가상 환경 분리를 통한 Document AI 프로젝트 구성

Python 가상 환경을 활용해 Linux 서버 내에서 Document AI 프로젝트 환경을 독립적으로 구성한 과정 정리

AIPythonDevOps
2025-04-02
AWS

AWS SES Mail Manager를 활용한 메일 수신 자동화 파이프라인

SES Mail Manager로 특정 주소의 수신 메일을 S3에 저장하고, Lambda로 인증코드를 파싱하여 내부 API를 자동 호출하는 메일 수신 자동화 파이프라인 구축

AWSPythonAutomation
2025-03-15
AWS

Windows 서버 프로세스 원격 모니터링 (SSM + Lambda + DynamoDB)

AWS SSM을 활용해 Windows 서버의 Java 프로세스 실행 상태를 원격으로 확인하고, 연속 실패 시 Slack/SMS/Email 다중 알람을 발송하는 서버리스 모니터링 구축

AWSMonitoringPython
2024-10-28
MLflow1
OCR1
PaddleOCR1
Automation8
AWS

AWS SES Mail Manager를 활용한 메일 수신 자동화 파이프라인

SES Mail Manager로 특정 주소의 수신 메일을 S3에 저장하고, Lambda로 인증코드를 파싱하여 내부 API를 자동 호출하는 메일 수신 자동화 파이프라인 구축

AWSPythonAutomation
2025-03-15
AWS

ECS Task STOPPED 상태 감지 및 Slack 알람 구축

ECS 서비스의 RunningTaskCount가 0이 되는 장애 상황을 CloudWatch + SNS + Lambda로 감지하고 Slack으로 즉시 알림하는 모니터링 구축

AWSMonitoringCloudWatch
2024-12-05
AWS

Windows 서버 프로세스 원격 모니터링 (SSM + Lambda + DynamoDB)

AWS SSM을 활용해 Windows 서버의 Java 프로세스 실행 상태를 원격으로 확인하고, 연속 실패 시 Slack/SMS/Email 다중 알람을 발송하는 서버리스 모니터링 구축

AWSMonitoringPython
2024-10-28
AWS

EC2 StatusCheckFailed 기반 장애 감지 및 자동 복구 알람 시스템

EC2 인스턴스의 StatusCheckFailed 지표를 활용한 장애 자동 감지, Auto Recovery 실행, 다중 채널(전화/SMS/이메일) 알람 아키텍처 구축

AWSMonitoringCloudWatch
2024-10-02
AWS

AWS Health Dashboard 모니터링 및 알림 자동화

AWS 내부 인프라 작업(ECS Task Patching Retirement 등)이 프로덕션에 미치는 영향을 사전에 감지하고 이메일 알림을 자동화하는 모니터링 구축

AWSMonitoringDevOps
2024-09-18
AWS

EDI Agent 중앙 모니터링 시스템 구축 (AgentMonitor)

다중 환경의 EDI Agent 동기화 상태를 중앙에서 모니터링하고, 이상 감지 시 알람 및 일일 리포트를 자동 발송하는 시스템 구축

AWSMonitoringPython
2024-08-20
Networking1
Network2
Prometheus1
SNS1
blog1
intro1