← 프로젝트 목록

Project

AI Document Processing Pipeline

인보이스 및 물류 문서에서 구조화된 데이터를 자동 추출하는 end-to-end AI 문서 처리 파이프라인. PaddleOCR + LayoutLM 기반 배치 추론, MLflow 실험 추적, S3 권한 분리 및 다층 백업 체계, 한글 문서 확장까지 PoC에서 운영 단계로의 전환을 포함합니다.

Service Screenshots

프로젝트 TASK 리스트

프로젝트 TASK 리스트

Document AI 검수 화면

Document AI 검수 화면

Document AI 추출 결과 1

Document AI 추출 결과

Document AI 추출 결과 2

Document AI 추출 결과 상세

95.4%

F1 Score

BIO 태깅 적용 기준

80%↑

업무 효율성

수작업 대비 처리 시간 단축

89

추출 라벨 수

BIO 태깅 (B-/I-) 포함

98.7%

토큰 정확도

eval_accuracy 기준

Pipeline Flow

PDF Upload→S3 / Local Storage→PaddleOCR→LayoutLM→후처리→JSON Output→MLflow 기록

01

개요

아키텍처 및 구현 목표, 프로젝트 전체 구조

ArchitectureGoal

02

환경 구성

Label Studio + EasyOCR + LLM 환경 구성, Cloud/On-premise, 필요 자원

Label StudioEasyOCRDockerGPU

03

OCR 파이프라인

PDF → Label Studio → EasyOCR Backend → 텍스트/박스 추출, API 토큰 적용

EasyOCRTesseractLabel Studio

04

모델 학습

데이터 수집-정제-학습-검증-배포 파이프라인, 추가 학습, checkpoint 관리

LayoutLMFine-tuningPyTorch

05

모델 / 데이터 처리

모델 비교, Token 추출, INPUT 분류, 전처리/후처리 코드, S3 연결

DonutLayoutLMS3Preprocessing

06

LayoutLM 분석

sub-token 처리, Invoice 공통 필드 추출, 성능 지표 분석

LayoutLMHuggingFaceNLP

07

성능 관리

모델 버전 관리 및 비교, 성능 측정, 400개/100개 테스트 결과

EvaluationMetricsTesting

08

배포 & 운영

Tesseract/LayoutLM 배치, 한글 문서 적용, S3 권한, 백업

BatchKorean NLPS3Backup

09

PaddleOCR 도입

PaddleOCR 도입 배경, 학습 구조, 환경 설정, 교체 전략, 배치 추론

PaddleOCRRecognitionKorean OCR

10

BIO 라벨 & 학습 개선

B-I-O 태깅 도입, Classifier Head 확장, 행 경계 학습, 학습 결과 검증

BIOLayoutLMToken Classification

11

문제 해결

OCR 추출 문제, Token 제한 이슈, 예외 케이스 처리

DebuggingToken LimitEdge Cases

Tech Stack

LayoutLMPyTorchHuggingFacePaddleOCRTesseractLabel StudioMLflowFastAPIOpenCVPyMuPDFDockerAWS S3LambdaSageMakerCloudWatchJenkins