Blog

개발 기록

Post Map

TagPost

Troubleshooting12

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

NLB의 Target Group별 트래픽을 확인하려 했으나 CloudWatch 메트릭과 NLB 액세스 로그 모두 실패. VPC Flow Logs → S3 → Athena 분석으로 포트별 트래픽을 확인한 트러블슈팅 기록.

AWSNLBVPC Flow Logs

2026-04-09

AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey

2026-04-08

AWS

NLB Target Group Unhealthy 원인 분석 및 해결 — Health Check 포트 불일치 문제

NLB에 연결된 타겟 그룹이 Unhealthy 상태인 원인을 보안 그룹과 Health Check 포트 설정에서 찾아 해결한 트러블슈팅 기록

AWSELBNLB

2025-10-25

AWS

EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한

EBS Provisioned IOPS를 올렸는데 CloudWatch에서 기대한 만큼 사용되지 않는 원인을 분석하고, EC2 인스턴스 유형별 I/O 제한과 Burst Credit 모델을 이해한 트러블슈팅 기록

AWSEBSEC2

2025-10-15

AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate

2025-10-08

AWS

ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계

ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록

AWSECSTroubleshooting

2025-09-20

AWS34

AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

AWSNLBVPC Flow Logs

2026-04-09

AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey

2026-04-08

AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사

S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서

AWSS3Security

2026-04-06

AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호

EC2 Instance Metadata Service v2(IMDSv2)를 강제 적용하여 SSRF 공격을 통한 IAM 자격증명 탈취를 방어하는 보안 가이드. Capital One 해킹 사례와 공격 원리 분석 포함.

AWSSecurityEC2

2026-04-06

NLB2

AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

AWSNLBVPC Flow Logs

2026-04-09

AWS

NLB Target Group Unhealthy 원인 분석 및 해결 — Health Check 포트 불일치 문제

NLB에 연결된 타겟 그룹이 Unhealthy 상태인 원인을 보안 그룹과 Health Check 포트 설정에서 찾아 해결한 트러블슈팅 기록

AWSELBNLB

2025-10-25

VPC Flow Logs1

AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

AWSNLBVPC Flow Logs

2026-04-09

Athena2

AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

AWSNLBVPC Flow Logs

2026-04-09

AWS

AWS CloudTrail + Athena 감사 로그 분석 환경 구축

CloudTrail로 모든 API 호출을 S3에 영구 저장하고, Athena로 SQL 쿼리하여 보안 감사 및 변경 이력을 추적하는 분석 환경 구축. S3 데이터 이벤트(Presigned URL + ECS Task Role)와 SES 이메일 발송 이력 추적까지 확장.

AWSSecurityCloudTrail

2026-01-15

Monitoring19

AWS

NLB 포트별 트래픽 확인이 안 된다? — VPC Flow Logs + Athena로 해결한 과정

AWSNLBVPC Flow Logs

2026-04-09

AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate

2025-10-08

AWS

ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계

ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록

AWSECSTroubleshooting

2025-09-20

AWS

EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응

t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록

AWSEC2Troubleshooting

2025-09-01

AWS Connect

AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)

SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정

AWS ConnectSMSSlack

2025-07-01

AWS Connect

AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축

AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정

AWS ConnectCloudWatchLambda

2025-06-10

ElastiCache1

AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey

2026-04-08

Valkey1

AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey

2026-04-08

ECS6

AWS

ElastiCache Valkey AUTH TOKEN 로테이션 미완료로 인한 서비스 장애 분석

AUTH TOKEN 로테이션이 중간 상태로 방치되어 한 달 뒤 ECS Task 재시작 시 인증 실패가 발생한 장애의 원인 분석과 복구 과정

AWSElastiCacheValkey

2026-04-08

AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate

2025-10-08

AWS

ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계

ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록

AWSECSTroubleshooting

2025-09-20

AWS

ECS Fargate OOM 방지: 메모리 설정 최적화

ECS Fargate 태스크가 OOM(Out of Memory)으로 반복 종료되는 문제를 분석하고, 메모리 설정 최적화로 해결한 과정을 정리합니다.

AWSECSTroubleshooting

2025-01-07

AWS

ECS Fargate 컨테이너 Health Check 기반 자동 재시작 구현

ECS에서 컨테이너는 Running인데 내부 앱이 죽는 문제를 Task Definition Health Check로 해결하고, 장애 시 자동 재시작을 구현하는 방법

AWSDevOpsDocker

2024-11-22

AWS

SNS + Lambda 기반 Slack 알림 구축 — ECS Task 장애 실시간 알림

CloudWatch Alarm → SNS → Lambda → Slack Webhook 파이프라인으로 ECS Task 장애를 Slack 채널에 실시간 알림하는 구조 구축

AWSSlackLambda

2024-08-15

S35

AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사

S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서

AWSS3Security

2026-04-06

AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

AWS CloudTrail + Athena 감사 로그 분석 환경 구축

AWSSecurityCloudTrail

2026-01-15

AWS

S3 버킷 접근 제어 및 Presigned URL 운영 전략

퍼블릭 액세스 차단 + IAM Role 기반 접근 제어, ECS/EC2/온프레미스 환경별 S3 권한 설계, STS 세션 만료 문제 해결을 위한 장기키 Presigned URL 전략

AWSSecurityDevOps

2025-02-17

Security10

AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사

S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서

AWSS3Security

2026-04-06

AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호

AWSSecurityEC2

2026-04-06

AWS

AWS CloudTrail + Athena 감사 로그 분석 환경 구축

AWSSecurityCloudTrail

2026-01-15

AWS

Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게

AWS Access Key의 보안 위험성과 IAM Role(STS 임시 자격증명) 기반 인증으로의 전환 전략. ECS Task Role, EC2 Instance Profile, Lambda Execution Role 등 환경별 적용 사례와 예외 케이스 정리.

AWSSecurityIAM

2025-12-22

DevOps22

AWS

S3 퍼블릭 액세스 차단 가이드 — Block Public Access 설정과 위험도 판단

S3 버킷의 퍼블릭 액세스 차단(Block Public Access) 4가지 옵션의 동작 원리, 상태별 위험도 판단, 조치 방법을 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

S3 버킷 버전 관리 적용 가이드 — 데이터 보호와 비용 최적화

S3 버전 관리의 동작 원리, 비용 영향, 버킷 유형별 적용 판단 기준, 라이프사이클 정책을 활용한 비용 절감 방법까지 정리한 실무 가이드

AWSS3Security

2026-04-06

AWS

EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호

AWSSecurityEC2

2026-04-06

DevOps

AWS 인프라 관리에 Kiro를 쓰는 이유

GPT, Claude, Cursor 대신 Kiro를 선택한 이유와 실무에서 느낀 차이점

DevOpsAWSKiro

2026-03-23

AWS

Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게

AWSSecurityIAM

2025-12-22

Infrastructure

물리 서버 RAID 구성 및 Rocky Linux 기반 테스트 서버 세팅 — MegaRAID + RAID 1/5 이중 구성

Broadcom MegaRAID SAS-3 3108 컨트롤러로 RAID 1 + RAID 5 이중 구성을 설계하고, Rocky Linux 기반 테스트/백업 서버를 구축한 과정 기록

InfrastructureDevOpsDocker

2025-11-01

IAM2

AWS

S3 Presigned URL 관련 자원 보안 점검 — IAM · 버킷 정책 · 퍼블릭 액세스 감사

S3 Presigned URL을 사용하는 버킷과 IAM 자원을 전수 점검하여 퍼블릭 액세스 차단, Access Key 로테이션, 최소 권한 원칙 준수 여부를 감사한 보고서

AWSS3Security

2026-04-06

AWS

Access Key에서 IAM Role 기반 인증으로 전환 — 왜, 어떻게

AWSSecurityIAM

2025-12-22

EC23

AWS

EC2 IMDSv2 보안 강화 — SSRF 공격으로부터 IAM 자격증명 보호

AWSSecurityEC2

2026-04-06

AWS

EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한

AWSEBSEC2

2025-10-15

AWS

EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응

t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록

AWSEC2Troubleshooting

2025-09-01

Kiro1

DevOps

AWS 인프라 관리에 Kiro를 쓰는 이유

GPT, Claude, Cursor 대신 Kiro를 선택한 이유와 실무에서 느낀 차이점

DevOpsAWSKiro

2026-03-23

CloudTrail1

AWS

AWS CloudTrail + Athena 감사 로그 분석 환경 구축

AWSSecurityCloudTrail

2026-01-15

SES2

AWS

AWS CloudTrail + Athena 감사 로그 분석 환경 구축

AWSSecurityCloudTrail

2026-01-15

AWS

Amazon SES 기반 이메일 알림 인프라 구축 — 프로덕션 발송 체계와 Lambda 연동

SES 프로덕션 액세스 활성화, 도메인/이메일 Identity 인증, SMTP User 관리, Lambda 함수 연동까지 운영 환경의 이메일 알림 인프라 전체 구성

AWSSESMonitoring

2024-08-01

Infrastructure2

Infrastructure

물리 서버 RAID 구성 및 Rocky Linux 기반 테스트 서버 세팅 — MegaRAID + RAID 1/5 이중 구성

Broadcom MegaRAID SAS-3 3108 컨트롤러로 RAID 1 + RAID 5 이중 구성을 설계하고, Rocky Linux 기반 테스트/백업 서버를 구축한 과정 기록

InfrastructureDevOpsDocker

2025-11-01

Network

물리 서버(113.11) 대역폭 충돌 문제 해결

사내 물리 서버에서 발생한 네트워크 대역폭 충돌 문제를 분석하고, 서브넷 분리와 트래픽 제어로 해결한 과정을 정리합니다.

NetworkTroubleshootingInfrastructure

2025-01-20

Docker4

Infrastructure

물리 서버 RAID 구성 및 Rocky Linux 기반 테스트 서버 세팅 — MegaRAID + RAID 1/5 이중 구성

Broadcom MegaRAID SAS-3 3108 컨트롤러로 RAID 1 + RAID 5 이중 구성을 설계하고, Rocky Linux 기반 테스트/백업 서버를 구축한 과정 기록

InfrastructureDevOpsDocker

2025-11-01

AWS

ECS Fargate 환경 JVM 모니터링 고도화 (Prometheus + Grafana)

CloudWatch만으로는 보이지 않는 JVM 내부 상태를 Prometheus + Grafana + ecs-discovery로 실시간 추적하는 모니터링 체계 구축

AWSMonitoringDevOps

2024-12-18

AWS

ECS Fargate 컨테이너 Health Check 기반 자동 재시작 구현

ECS에서 컨테이너는 Running인데 내부 앱이 죽는 문제를 Task Definition Health Check로 해결하고, 장애 시 자동 재시작을 구현하는 방법

AWSDevOpsDocker

2024-11-22

DevOps

Docker 네트워크가 사내 네트워크를 망가뜨렸던 날: 트러블슈팅 여정

서버 재부팅 후 발생한 네트워크 장애, 원인은 Docker bridge 네트워크와 사내 서브넷 충돌이었습니다.

DevOpsDockerNetwork

2024-11-08

ELB1

AWS

NLB Target Group Unhealthy 원인 분석 및 해결 — Health Check 포트 불일치 문제

NLB에 연결된 타겟 그룹이 Unhealthy 상태인 원인을 보안 그룹과 Health Check 포트 설정에서 찾아 해결한 트러블슈팅 기록

AWSELBNLB

2025-10-25

Health Check1

AWS

NLB Target Group Unhealthy 원인 분석 및 해결 — Health Check 포트 불일치 문제

NLB에 연결된 타겟 그룹이 Unhealthy 상태인 원인을 보안 그룹과 Health Check 포트 설정에서 찾아 해결한 트러블슈팅 기록

AWSELBNLB

2025-10-25

EBS1

AWS

EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한

AWSEBSEC2

2025-10-15

IOPS1

AWS

EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한

AWSEBSEC2

2025-10-15

Performance1

AWS

EBS IOPS 8,000 설정에도 실제 4,000~6,000만 사용되는 문제 — EC2 t3 Burst Credit 제한

AWSEBSEC2

2025-10-15

Fargate1

AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate

2025-10-08

EFS1

AWS

ECS Fargate StorageWriteBytes 폭증 원인 분석 — EFS 연결 서비스 트러블슈팅

ECS Fargate 배치 서비스에서 StorageWriteBytes가 지속적으로 증가한 원인을 EFS, 컨테이너 로그, Container Insights 지표 특성 관점에서 분석한 기록

AWSECSFargate

2025-10-08

Java3

AWS

ECS 강제 재배포 후 메모리 사용률 급증 — JVM Committed Heap과 OS 메모리 관계

ECS Fargate 서비스 강제 재배포 후 메모리 사용률이 계단식으로 상승한 원인을 JVM committed heap과 OS 메모리 인식 차이에서 분석한 기록

AWSECSTroubleshooting

2025-09-20

AWS

EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응

t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록

AWSEC2Troubleshooting

2025-09-01

Troubleshooting

DB 서버 메모리 부족 + Swap 사용 — MariaDB 세션 누적 원인 분석

DB 서버 메모리가 지속적으로 차오르고 Swap까지 사용하는 현상의 원인을 MariaDB 세션 수와 HikariCP 커넥션 풀 설정에서 찾아 분석한 트러블슈팅 기록

TroubleshootingMemoryJava

2025-08-08

Memory2

AWS

EC2 메모리 사용률 82% → 86% 지속 상승, Java 프로세스 분석 및 대응

t3.large EC2 인스턴스에서 메모리 사용률이 비정상적으로 높아진 원인을 분석하고, Java 프로세스별 메모리 점유를 추적한 트러블슈팅 기록

AWSEC2Troubleshooting

2025-09-01

Troubleshooting

DB 서버 메모리 부족 + Swap 사용 — MariaDB 세션 누적 원인 분석

DB 서버 메모리가 지속적으로 차오르고 Swap까지 사용하는 현상의 원인을 MariaDB 세션 수와 HikariCP 커넥션 풀 설정에서 찾아 분석한 트러블슈팅 기록

TroubleshootingMemoryJava

2025-08-08

MariaDB5

Troubleshooting

Replica SQL 적용 밀릴 때 — 병렬 복제 워커 큐 꽉 찬 문제 해결

MariaDB Replica에서 Slave_SQL_Running_State: Waiting for room in worker thread event queue 에러가 발생하며 복제 지연이 생긴 원인을 분석하고, 워커 큐 및 병렬 쓰레드 튜닝으로 해결한 기록

TroubleshootingMariaDBReplication

2025-07-20

MariaDB

PRD DB MariaDB 11.4 버전업 - 운영 환경 적용 과정

운영(PRD) 환경에서 MariaDB 10.5를 11.4로 버전업한 실제 적용 과정과 주의사항 정리

MariaDBDatabaseMigration

2025-07-05

MariaDB

DEV DB MariaDB 11.4 마이그레이션 실적용 기록

개발 환경 DB를 MariaDB 10.5에서 11.4로 마이그레이션한 실제 적용 과정 정리

MariaDBDatabaseMigration

2025-06-25

MariaDB

MariaDB 10.5에서 11.4 버전업 및 Replication 구성기

운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리

MariaDBDatabaseReplication

2025-06-10

MariaDB

MariaDB 이중화 테스트 - Replication 검증 과정 기록

MariaDB Master-Replica 이중화를 운영에 적용하기 전 테스트 환경에서 진행한 검증 과정 정리

MariaDBDatabaseReplication

2025-06-01

Replication3

Troubleshooting

Replica SQL 적용 밀릴 때 — 병렬 복제 워커 큐 꽉 찬 문제 해결

TroubleshootingMariaDBReplication

2025-07-20

MariaDB

MariaDB 10.5에서 11.4 버전업 및 Replication 구성기

운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리

MariaDBDatabaseReplication

2025-06-10

MariaDB

MariaDB 이중화 테스트 - Replication 검증 과정 기록

MariaDB Master-Replica 이중화를 운영에 적용하기 전 테스트 환경에서 진행한 검증 과정 정리

MariaDBDatabaseReplication

2025-06-01

Database5

Troubleshooting

Replica SQL 적용 밀릴 때 — 병렬 복제 워커 큐 꽉 찬 문제 해결

TroubleshootingMariaDBReplication

2025-07-20

MariaDB

PRD DB MariaDB 11.4 버전업 - 운영 환경 적용 과정

운영(PRD) 환경에서 MariaDB 10.5를 11.4로 버전업한 실제 적용 과정과 주의사항 정리

MariaDBDatabaseMigration

2025-07-05

MariaDB

DEV DB MariaDB 11.4 마이그레이션 실적용 기록

개발 환경 DB를 MariaDB 10.5에서 11.4로 마이그레이션한 실제 적용 과정 정리

MariaDBDatabaseMigration

2025-06-25

MariaDB

MariaDB 10.5에서 11.4 버전업 및 Replication 구성기

운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리

MariaDBDatabaseReplication

2025-06-10

MariaDB

MariaDB 이중화 테스트 - Replication 검증 과정 기록

MariaDB Master-Replica 이중화를 운영에 적용하기 전 테스트 환경에서 진행한 검증 과정 정리

MariaDBDatabaseReplication

2025-06-01

Migration3

MariaDB

PRD DB MariaDB 11.4 버전업 - 운영 환경 적용 과정

운영(PRD) 환경에서 MariaDB 10.5를 11.4로 버전업한 실제 적용 과정과 주의사항 정리

MariaDBDatabaseMigration

2025-07-05

MariaDB

DEV DB MariaDB 11.4 마이그레이션 실적용 기록

개발 환경 DB를 MariaDB 10.5에서 11.4로 마이그레이션한 실제 적용 과정 정리

MariaDBDatabaseMigration

2025-06-25

MariaDB

MariaDB 10.5에서 11.4 버전업 및 Replication 구성기

운영 환경에서 MariaDB 10.5를 11.4로 버전업하고 Master-Replica 이중화를 구성한 전체 과정 정리

MariaDBDatabaseReplication

2025-06-10

Production1

MariaDB

PRD DB MariaDB 11.4 버전업 - 운영 환경 적용 과정

운영(PRD) 환경에서 MariaDB 10.5를 11.4로 버전업한 실제 적용 과정과 주의사항 정리

MariaDBDatabaseMigration

2025-07-05

AWS Connect2

AWS Connect

AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)

SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정

AWS ConnectSMSSlack

2025-07-01

AWS Connect

AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축

AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정

AWS ConnectCloudWatchLambda

2025-06-10

SMS2

AWS Connect

AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)

SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정

AWS ConnectSMSSlack

2025-07-01

AWS

SNS SMS 크로스 리전 구성 — Seoul에서 Tokyo 경유 문자 알림 발송

Seoul 리전의 SMS 미지원 제약을 Tokyo 리전 경유로 해결. CloudWatch Alarm → SNS → Lambda → Tokyo SNS → SMS 파이프라인 구축과 Sandbox 환경 운영 노하우

AWSSNSSMS

2024-08-10

Slack2

AWS Connect

AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)

SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정

AWS ConnectSMSSlack

2025-07-01

AWS

SNS + Lambda 기반 Slack 알림 구축 — ECS Task 장애 실시간 알림

CloudWatch Alarm → SNS → Lambda → Slack Webhook 파이프라인으로 ECS Task 장애를 Slack 채널에 실시간 알림하는 구조 구축

AWSSlackLambda

2024-08-15

SpringBoot1

AWS Connect

AlertHub 멀티채널 알림 시스템 구축 (AWS Connect 전화 · SMS · Slack · Email)

SpringBoot 기반 모니터링 애플리케이션에 AWS Connect 아웃바운드 콜, SNS SMS, Slack Webhook, SES 이메일까지 4채널 알림 체계를 구축한 과정

AWS ConnectSMSSlack

2025-07-01

CloudWatch4

AWS Connect

AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축

AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정

AWS ConnectCloudWatchLambda

2025-06-10

AWS

ECS Task STOPPED 상태 감지 및 Slack 알람 구축

ECS 서비스의 RunningTaskCount가 0이 되는 장애 상황을 CloudWatch + SNS + Lambda로 감지하고 Slack으로 즉시 알림하는 모니터링 구축

AWSMonitoringCloudWatch

2024-12-05

AWS

EC2 StatusCheckFailed 기반 장애 감지 및 자동 복구 알람 시스템

EC2 인스턴스의 StatusCheckFailed 지표를 활용한 장애 자동 감지, Auto Recovery 실행, 다중 채널(전화/SMS/이메일) 알람 아키텍처 구축

AWSMonitoringCloudWatch

2024-10-02

AWS

CloudWatch 알람 기반 EC2/ECS 통합 모니터링 구축

EC2 인스턴스와 ECS 서비스 전반에 걸친 CloudWatch 알람 체계 설계 및 구축. 이메일/문자/전화/Slack 다중 알림 채널 운영.

AWSMonitoringDevOps

2024-08-05

Lambda3

AWS Connect

AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축

AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정

AWS ConnectCloudWatchLambda

2025-06-10

AWS

SNS + Lambda 기반 Slack 알림 구축 — ECS Task 장애 실시간 알림

CloudWatch Alarm → SNS → Lambda → Slack Webhook 파이프라인으로 ECS Task 장애를 Slack 채널에 실시간 알림하는 구조 구축

AWSSlackLambda

2024-08-15

AWS

SNS SMS 크로스 리전 구성 — Seoul에서 Tokyo 경유 문자 알림 발송

Seoul 리전의 SMS 미지원 제약을 Tokyo 리전 경유로 해결. CloudWatch Alarm → SNS → Lambda → Tokyo SNS → SMS 파이프라인 구축과 Sandbox 환경 운영 노하우

AWSSNSSMS

2024-08-10

Outbound Call1

AWS Connect

AWS Connect 아웃바운드 콜 테스트 및 CloudWatch 연동 자동 전화 알림 구축

AWS Connect StartOutboundVoiceContact API 테스트부터 CloudWatch → SNS → Lambda → Connect 파이프라인으로 CPU 알람 시 자동 전화 알림까지 구축한 과정

AWS ConnectCloudWatchLambda

2025-06-10

Testing1

MariaDB

MariaDB 이중화 테스트 - Replication 검증 과정 기록

MariaDB Master-Replica 이중화를 운영에 적용하기 전 테스트 환경에서 진행한 검증 과정 정리

MariaDBDatabaseReplication

2025-06-01

AI4

Document AI 성능 측정 체계 구축: OCR부터 MLflow까지

Document AI를 '모델 개발 중심 단계'에서 '측정 가능한 ML 시스템 단계'로 전환하기 위한 성능 측정 체계 구축 과정을 정리합니다.

AIMLOpsPython

2025-05-22

PaddleOCR 도입기: Tesseract에서 PaddleOCR로의 전환

Tesseract OCR의 한국어 인식 한계를 극복하기 위해 PaddleOCR을 도입하고, OCR 교체 검증까지 완료한 과정을 정리합니다. Recognition 파인튜닝은 운영 환경을 고려하여 진행 예정입니다.

AIOCRPython

2025-05-05

AI Document Processing Pipeline (OCR + LayoutLM)

인보이스 및 물류 문서에서 구조화된 데이터를 자동 추출하는 end-to-end AI 문서 처리 파이프라인 구축

AIAWSDevOps

2025-04-18

Linux 서버에서 가상 환경 분리를 통한 Document AI 프로젝트 구성

Python 가상 환경을 활용해 Linux 서버 내에서 Document AI 프로젝트 환경을 독립적으로 구성한 과정 정리

AIPythonDevOps

2025-04-02

MLOps1

Document AI 성능 측정 체계 구축: OCR부터 MLflow까지

Document AI를 '모델 개발 중심 단계'에서 '측정 가능한 ML 시스템 단계'로 전환하기 위한 성능 측정 체계 구축 과정을 정리합니다.

AIMLOpsPython

2025-05-22

Python8

Document AI 성능 측정 체계 구축: OCR부터 MLflow까지

Document AI를 '모델 개발 중심 단계'에서 '측정 가능한 ML 시스템 단계'로 전환하기 위한 성능 측정 체계 구축 과정을 정리합니다.

AIMLOpsPython

2025-05-22

PaddleOCR 도입기: Tesseract에서 PaddleOCR로의 전환

AIOCRPython

2025-05-05

AI Document Processing Pipeline (OCR + LayoutLM)

인보이스 및 물류 문서에서 구조화된 데이터를 자동 추출하는 end-to-end AI 문서 처리 파이프라인 구축

AIAWSDevOps

2025-04-18

Linux 서버에서 가상 환경 분리를 통한 Document AI 프로젝트 구성

Python 가상 환경을 활용해 Linux 서버 내에서 Document AI 프로젝트 환경을 독립적으로 구성한 과정 정리

AIPythonDevOps

2025-04-02

AWS

AWS SES Mail Manager를 활용한 메일 수신 자동화 파이프라인

SES Mail Manager로 특정 주소의 수신 메일을 S3에 저장하고, Lambda로 인증코드를 파싱하여 내부 API를 자동 호출하는 메일 수신 자동화 파이프라인 구축

AWSPythonAutomation

2025-03-15

AWS

Windows 서버 프로세스 원격 모니터링 (SSM + Lambda + DynamoDB)

AWS SSM을 활용해 Windows 서버의 Java 프로세스 실행 상태를 원격으로 확인하고, 연속 실패 시 Slack/SMS/Email 다중 알람을 발송하는 서버리스 모니터링 구축

AWSMonitoringPython

2024-10-28

MLflow1

Document AI 성능 측정 체계 구축: OCR부터 MLflow까지

Document AI를 '모델 개발 중심 단계'에서 '측정 가능한 ML 시스템 단계'로 전환하기 위한 성능 측정 체계 구축 과정을 정리합니다.

AIMLOpsPython

2025-05-22

OCR1

PaddleOCR 도입기: Tesseract에서 PaddleOCR로의 전환

AIOCRPython

2025-05-05

PaddleOCR1

PaddleOCR 도입기: Tesseract에서 PaddleOCR로의 전환

AIOCRPython

2025-05-05

Automation8

AWS

AWS SES Mail Manager를 활용한 메일 수신 자동화 파이프라인

SES Mail Manager로 특정 주소의 수신 메일을 S3에 저장하고, Lambda로 인증코드를 파싱하여 내부 API를 자동 호출하는 메일 수신 자동화 파이프라인 구축

AWSPythonAutomation

2025-03-15

AWS

ECS Task STOPPED 상태 감지 및 Slack 알람 구축

ECS 서비스의 RunningTaskCount가 0이 되는 장애 상황을 CloudWatch + SNS + Lambda로 감지하고 Slack으로 즉시 알림하는 모니터링 구축

AWSMonitoringCloudWatch

2024-12-05

AWS

Windows 서버 프로세스 원격 모니터링 (SSM + Lambda + DynamoDB)

AWS SSM을 활용해 Windows 서버의 Java 프로세스 실행 상태를 원격으로 확인하고, 연속 실패 시 Slack/SMS/Email 다중 알람을 발송하는 서버리스 모니터링 구축

AWSMonitoringPython

2024-10-28

AWS

EC2 StatusCheckFailed 기반 장애 감지 및 자동 복구 알람 시스템

EC2 인스턴스의 StatusCheckFailed 지표를 활용한 장애 자동 감지, Auto Recovery 실행, 다중 채널(전화/SMS/이메일) 알람 아키텍처 구축

AWSMonitoringCloudWatch

2024-10-02

AWS

AWS Health Dashboard 모니터링 및 알림 자동화

AWS 내부 인프라 작업(ECS Task Patching Retirement 등)이 프로덕션에 미치는 영향을 사전에 감지하고 이메일 알림을 자동화하는 모니터링 구축

AWSMonitoringDevOps

2024-09-18

AWS

EDI Agent 중앙 모니터링 시스템 구축 (AgentMonitor)

다중 환경의 EDI Agent 동기화 상태를 중앙에서 모니터링하고, 이상 감지 시 알람 및 일일 리포트를 자동 발송하는 시스템 구축

AWSMonitoringPython

2024-08-20

Networking1

AWS

S3 VPC Gateway Endpoint 점검 및 네트워크 비용 최적화

S3용 VPC Gateway Endpoint 미설정으로 NAT Gateway를 경유하던 트래픽을 점검하고, 환경별 인프라 구성에 따른 비용 최적화 방안 정리

AWSDevOpsSecurity

2025-03-01

Network2

Network

물리 서버(113.11) 대역폭 충돌 문제 해결

사내 물리 서버에서 발생한 네트워크 대역폭 충돌 문제를 분석하고, 서브넷 분리와 트래픽 제어로 해결한 과정을 정리합니다.

NetworkTroubleshootingInfrastructure

2025-01-20

DevOps

Docker 네트워크가 사내 네트워크를 망가뜨렸던 날: 트러블슈팅 여정

서버 재부팅 후 발생한 네트워크 장애, 원인은 Docker bridge 네트워크와 사내 서브넷 충돌이었습니다.

DevOpsDockerNetwork

2024-11-08

Prometheus1

AWS

통합 모니터링 시스템 구축 — 이메일 · 문자 · 전화 · Slack 다중 알림 아키텍처

CloudWatch Alarm, SNS, SES, Amazon Connect, Lambda, EventBridge를 조합하여 EC2/ECS 전체 인프라에 대한 사각지대 없는 모니터링 체계와 심각도별 다중 알림 채널을 구축한 과정

AWSMonitoringDevOps

2024-10-15

SNS1

AWS

SNS SMS 크로스 리전 구성 — Seoul에서 Tokyo 경유 문자 알림 발송

Seoul 리전의 SMS 미지원 제약을 Tokyo 리전 경유로 해결. CloudWatch Alarm → SNS → Lambda → Tokyo SNS → SMS 파이프라인 구축과 Sandbox 환경 운영 노하우

AWSSNSSMS

2024-08-10

blog1

blog

첫 번째 포스트

블로그를 시작합니다.

blogintro

2024-07-01

intro1

blog

첫 번째 포스트

블로그를 시작합니다.

blogintro

2024-07-01