← AI Document Processing
📊

07 / 11

성능 관리

모델 버전 관리 및 비교, 성능 측정, 400개/100개 테스트 결과

EvaluationMetricsTesting
개요환경 구성OCR 파이프라인모델 학습모델 / 데이터 처리LayoutLM 분석성능 관리배포 & 운영PaddleOCR 도입BIO 라벨 & 학습 개선문제 해결

MLflow — PaddleOCR 성능 추적

MLflow PaddleOCR 성능 결과 1

PaddleOCR 성능 추적 — CER/WER/EM 지표

MLflow PaddleOCR 성능 결과 2

PaddleOCR 필드별 성능 상세

MLflow — LayoutLM (KIE) 성능 추적

MLflow LayoutLM KIE 성능 결과 1

LayoutLM KIE 성능 추적 — Precision/Recall/F1

MLflow LayoutLM KIE 성능 결과 2

LayoutLM KIE 라벨별 성능 상세

성능 지표 구분: 모델 내부 평가 vs 자체 운영 테스트

Document AI 파이프라인의 성능은 두 가지 관점에서 측정됩니다. 모델 학습 시 자동으로 산출되는 내부 평가 지표와, 실제 운영 문서를 대상으로 직접 측정한 자체 테스트 지표입니다.

모델 내부 평가 (HuggingFace Trainer)

학습 완료 후 Trainer.evaluate()가 test split에 대해 자동 산출. seqeval 라이브러리 기반 token-level 평가.

평가 대상test split 37개 문서
평가 방식seqeval (token-level)
eval_f10.9565
eval_precision0.9526
eval_recall0.9604
eval_accuracy0.9762

checkpoint-740 기준. 학습에 사용하지 않은 데이터로 평가.

자체 운영 테스트 (MLflow 기록)

실제 운영 환경의 문서를 대상으로 end-to-end 파이프라인(OCR → 추론 → 후처리)을 거쳐 필드 단위로 직접 측정. MLflow에 실험 결과를 기록하여 추적.

평가 대상운영 문서 400개 + line_item 100개
평가 방식필드 단위 정확도 (end-to-end)
F1 Score95.6%
추적 도구MLflow
포함 범위OCR 오류 + 모델 오류 모두 반영

실제 운영 문서 기준. OCR → 추론 → 후처리 전체 파이프라인 포함.

두 지표의 차이

모델 내부 평가는 token-level에서 측정. OCR 오류는 반영되지 않고, 모델 자체의 분류 성능만 평가.

자체 운영 테스트는 필드 단위(end-to-end)에서 측정. OCR 오류, 후처리 로직, 실제 문서 다양성이 모두 반영된 실전 성능.

두 지표 모두 MLflow에 기록하여 checkpoint별 성능 이력을 추적하고, 모델 배포 판단 근거로 활용.

LayoutLM 분석배포 & 운영