← 프로젝트 목록

Project

AI Document Processing Pipeline

인보이스 및 물류 문서에서 구조화된 데이터를 자동 추출하는 end-to-end AI 문서 처리 파이프라인. PaddleOCR + LayoutLM 기반 배치 추론, MLflow 실험 추적, S3 권한 분리 및 다층 백업 체계, 한글 문서 확장까지 PoC에서 운영 단계로의 전환을 포함합니다.

Service Screenshots

프로젝트 TASK 리스트

프로젝트 TASK 리스트

Document AI 검수 화면

Document AI 검수 화면

Document AI 추출 결과 1

Document AI 추출 결과

Document AI 추출 결과 2

Document AI 추출 결과 상세

95.4%

F1 Score

BIO 태깅 적용 기준

80%↑

업무 효율성

수작업 대비 처리 시간 단축

89

추출 라벨 수

BIO 태깅 (B-/I-) 포함

98.7%

토큰 정확도

eval_accuracy 기준

Pipeline Flow

PDF UploadS3 / Local StoragePaddleOCRLayoutLM후처리JSON OutputMLflow 기록

Tech Stack

LayoutLMPyTorchHuggingFacePaddleOCRTesseractLabel StudioMLflowFastAPIOpenCVPyMuPDFDockerAWS S3LambdaSageMakerCloudWatchJenkins